UltraCUA: Przełom w agentach interfejsu graficznego – hybrydowe podejście Apple zmienia reguły gry
Wraz z dynamicznym rozwojem sztucznej inteligencji, agenci komputerowi stanowią jeden z najbardziej obiecujących kierunków. Tradycyjnie, ich funkcjonalność ograniczała się do prymitywnych działań, takich jak kliknięcia czy przewijanie. Długie łańcuchy tych prostych akcji często prowadziły do błędów i nieefektywności. Apple, poprzez swoją najnowszą innowację – model UltraCUA – przedstawia przełomowe rozwiązanie, które ma potencjał zrewolucjonizować sposób, w jaki agenci AI wchodzą w interakcję z systemami operacyjnymi.
Hybrydowy model działania
Kluczową innowacją UltraCUA jest wprowadzenie hybrydowej przestrzeni akcji, która umożliwia agentom płynne przeplatanie niskopoziomowych akcji interfejsu graficznego (GUI) z wysokopoziomowymi wywołaniami narzędzi programistycznych. Podejście to pozwala agentowi inteligentnie wybierać najbardziej efektywną i niezawodną ścieżkę działania w danym momencie. Oznacza to, że złożone operacje, które wcześniej wymagały serii kliknięć, mogą być teraz skondensowane w jedno wywołanie narzędzia, co znacząco redukuje ryzyko błędów kaskadowych i skraca liczbę kroków niezbędnych do wykonania zadania. W praktyce, UltraCUA działa jak most łączący uniwersalność agentów GUI z precyzją i mocą frameworków opartych na narzędziach.
Skalowanie akwizycji narzędzi
Zbudowanie potężnej biblioteki narzędzi jest fundamentem sukcesu UltraCUA. Badacze Apple opracowali zautomatyzowany potok, który skutecznie pozyskuje skróty klawiaturowe i polecenia z dokumentacji oprogramowania. Integruje również implementacje narzędzi z otwartych źródeł, a co najważniejsze, wykorzystuje kody generowane przez innych agentów AI do syntezy nowych narzędzi. Każde z tych narzędzi to wywołalny interfejs, który za swą prostotą kryje skomplikowaną sekwencję operacji GUI. Obecnie biblioteka UltraCUA obejmuje 881 narzędzi w ponad dziesięciu domenach, z imponującym pokryciem dla aplikacji takich jak Visual Studio Code (135 narzędzi) czy LibreOffice Writer (123 narzędzia), a także Thunderbird i GIMP.
Weryfikowalne zadania syntetyczne i trajektorie
Trening agentów AI wymaga precyzyjnego nadzoru i stabilnych sygnałów nagrody. UltraCUA wykorzystuje podwójny silnik syntetyczny, który generuje zadania treningowe. Pierwszy potok, oparty na ocenie, tworzy zadania w oparciu o atomowe weryfikatory dla przeglądarek, plików, obrazów i stanu systemu. Drugi potok, skoncentrowany na instrukcjach, eksploruje system operacyjny i proponuje zadania zgodne z kontekstem, które są następnie weryfikowane. W rezultacie powstało 17 864 weryfikowalnych zadań w dziesięciu domenach, w tym Chrome, LibreOffice, GIMP, VS Code oraz scenariusze wieloaplikacyjne. Szczególnie imponująca jest liczba 5 885 zadań dla pakietu LibreOffice oraz 2 113 zadań obejmujących złożone interakcje między różnymi aplikacjami.
Następnie, w procesie symulacyjnym obejmującym wielu agentów (z planowaniem opartym na OpenAI o3 i wizualną lokalizacją z GTA1-7B), generowane są udane trajektorie hybrydowe. Całość dostarczyła około 26.8 tysiąca udanych trajektorii, które precyzyjnie pokazują, kiedy należy użyć narzędzia programistycznego, a kiedy interweniować poprzez interfejs graficzny. Te trajektorie stanowią trzon fazy nadzorowanego uczenia.
Podejście treningowe i wyniki
Proces treningowy UltraCUA składa się z dwóch etapów. Pierwszy to nadzorowane dostrajanie (SFT) na wspomnianych udanych trajektoriach, trwające trzy epoki. Następnie przechodzi się do uczenia ze wzmocnieniem online, wykorzystującym weryfikowalne zadania, zoptymalizowane pod kątem trudności. Eksperymenty, prowadzone na procesorach graficznych NVIDIA H100, wykazały znaczną poprawę. W testach na platformie OSWorld, UltraCUA-32B osiągnęło 41,0% sukcesów w budżecie 15 kroków, co stanowi 11,3 punktu procentowego wzrostu w porównaniu do baselinowego OpenCUA-32B (29,7%). Model 7B również pokazał znaczące zyski. Co ważne, zyski te utrzymują się także w dłuższych sekwencjach, co wskazuje na lepszy wybór akcji, a nie tylko na większą liczbę prób.
Transfer międzyplatformowy
Jednym z najbardziej obiecujących wyników jest zdolność UltraCUA do przenoszenia nauczonych strategii między platformami. Mimo że model był trenowany wyłącznie na danych z platformy OSWorld opartej na Ubuntu, UltraCUA-7B osiągnęło 21,7% sukcesu na WindowsAgentArena bez żadnego specyficznego treningu dla systemu Windows. To wynik przewyższający UI-TARS-1.5-7B (18,1%) oraz model Qwen2 trenowany na danych Windows (13,5%). Oznacza to, że strategie hybrydowych akcji są na tyle ogólne, że mogą być efektywnie stosowane w środowiskach, na których model nie był bezpośrednio trenowany, co badacze określają mianem uogólniania zero-shot między platformami.
Wnioski
UltraCUA formalizuje hybrydową przestrzeń akcji, która pozwala pojedynczemu agentowi AI swobodnie przełączać się między prymitywnymi akcjami GUI a wywołaniami narzędzi programistycznych. To fundamentalna zmiana, która redukuje długie, podatne na błędy łańcuchy akcji. Innowacyjne podejście do skalowania biblioteki narzędzi oraz silnik do generowania syntetycznych danych treningowych, który dostarczył ponad 17 000 weryfikowalnych zadań, stanowi solidną podstawę dla dalszego rozwoju. Wyniki na OSWorld, z 22% relatywną poprawą i 11% mniejszą liczbą kroków, świadczą o zwiększonej niezawodności i efektywności. Zdolność do generalizacji międzyplatformowej, potwierdzona sukcesem modelu 7B na platformie Windows bez specyficznego treningu, otwiera drogę do budowy bardziej elastycznych i wydajnych agentów AI zdolnych do radzenia sobie z szerokim spektrum zadań w różnych środowiskach komputerowych.
