Alibaba Tongyi Lab przedstawia MAI-UI: Nową erę interakcji z interfejsem graficznym
W dynamicznym świecie sztucznej inteligencji, specjaliści z Alibaba Tongyi Lab po raz kolejny przesuwają granice możliwości, prezentując MAI-UI – rodzinę fundamentalnych agentów interfejsu graficznego (GUI). Rozwiązanie to ma ambicje redefiniować interakcje użytkowników z urządzeniami mobilnymi, integrując wykorzystanie narzędzi MCP, płynną interakcję z użytkownikiem, współpracę między urządzeniem a chmurą oraz uczenie się online (RL).
MAI-UI, oparte na architekturze Qwen3 VL, występuje w różnych rozmiarach – od 2B do 235B A22B parametrów. Modele te, przyjmując instrukcje języka naturalnego i zrzuty ekranu UI, przekształcają je w ustrukturyzowane akcje wykonywane w środowisku Androida. Co istotne, system wykracza poza standardowe operacje, takie jak klikanie czy przewijanie, wprowadzając akcje odpowiadania na pytania użytkownika, prośby o doprecyzowanie celów czy wywoływanie narzędzi zewnętrznych. Dzięki temu agent może w ramach jednej sekwencji łączyć kroki GUI, bezpośrednie odpowiedzi językowe i operacje na poziomie API.
Uziemienie GUI z rozumowaniem instrukcji
Kluczowym aspektem każdego agenta GUI jest jego zdolność do uziemienia (ang. grounding), czyli mapowania swobodnych instrukcji językowych na konkretne elementy sterujące na ekranie. MAI-UI w tym kontekście wykorzystuje podejście inspirowane wcześniejszymi pracami UI-Ins, stosując wieloperspektywiczne opisy instrukcji. Zamiast polegać na jednym opisie dla elementu UI, system generuje wiele jego widoków, uwzględniając aspekt wizualny, funkcję, lokalizację przestrzenną i intencje użytkownika. To pozwala modelowi na precyzyjne wskazanie odpowiedniego obszaru na ekranie, minimalizując ryzyko błędów wynikających z niedokładnych lub niejednoznacznych instrukcji.
Dane do treningu pochodzą zarówno z przygotowanych zestawów danych GUI, jak i z szeroko zakrojonej eksploracji zwirtualizowanych systemów operacyjnych. Wykorzystanie drzew dostępności i parserów opartych na OCR pozwala na precyzyjne dopasowanie metadanych tekstowych do lokalizacji pikselowych. MAI-UI wykazuje znaczące osiągnięcia w publicznych benchmarkach uziemienia GUI, osiągając 73,5% dokładności na ScreenSpot Pro i 91,3% na MMBench GUI L2, przewyższając w tych testach takie modele jak Gemini 3 Pro i Seed1.8.
Samoregulująca się nawigacja i MobileWorld
Nawigacja stanowi bardziej złożone wyzwanie niż samo uziemienie, wymagając od agenta utrzymywania kontekstu przez wiele kroków, nierzadko między różnymi aplikacjami, oraz interakcji z użytkownikiem i narzędziami. Alibaba Tongyi Lab, aby sprostać temu wyzwaniu, stworzyło samoregulującą się linię danych. Proces ten obejmuje generowanie scenariuszy z ręcznie przygotowanych zadań i publicznych danych, a następnie rozszerzanie ich poprzez perturbacje parametrów, by zwiększyć pokrycie. W efekcie, agenci w połączeniu z ludzkimi anonimizerami testują te zadania w środowiskach Androida, generując trajektorie, które są następnie oceniane przez model sędziowski. Takie dynamiczne podejście zapewnia, że dystrybucja danych treningowych adaptuje się do aktualnej polityki modelu, co przekłada się na jego robustność.
Na benchmarku MobileWorld, MAI-UI osiąga 41,7% ogólnego sukcesu, co stanowi wynik o około 20,8 punktu procentowego lepszy niż najsilniejsze modele bazowe (ang. baselines) end-to-end GUI i jest konkurencyjne dla większych, własnościowych frameworków, takich jak Gemini 3 Pro. Szczególnie imponujące są wyniki dla zadań czysto GUI (39,7%) oraz zadań wymagających interakcji z użytkownikiem (51,1%), a także tych wzbogaconych o narzędzia MCP (37,5%).
Uczenie ze wzmocnieniem online w kontenerowych środowiskach Androida
Statyczne dane okazują się niewystarczające dla zapewnienia robustności w dynamicznie zmieniających się aplikacjach mobilnych. MAI-UI wykorzystuje zatem framework uczenia ze wzmocnieniem online (RL), w którym agent wchodzi w interakcje bezpośrednio z wirtualnymi urządzeniami Androida w kontenerach. Skalowanie tego środowiska RL jest kluczowe: zwiększenie liczby równoległych środowisk GUI z 32 do 512 przynosi poprawę sukcesu nawigacji o około 5,2 punktu procentowego, a wydłużenie liczby dozwolonych kroków środowiska z 15 do 50 dodaje kolejne 4,3 punkty. Na benchmarku AndroidWorld, największy wariant MAI-UI osiąga 76,7% sukcesu, przewyższając m.in. UI-Tars-2 i Gemini 2.5 Pro.
W rezultacie, Alibaba Tongyi Lab dostarcza nie tylko imponujące wyniki w benchmarkach, ale przede wszystkim narzędzie, które ma potencjał, by znacząco ułatwić interakcję użytkowników z urządzeniami mobilnymi, zapewniając bardziej intuicyjne i efektywne doświadczenie.
