Salesforce AI przedstawia GTA1: Nowy standard interakcji z interfejsami graficznymi
W obszarze sztucznej inteligencji, która coraz śmielej wkracza w interakcję z systemami operacyjnymi, Salesforce AI Research zaprezentowało GTA1. Ten nowatorski agent graficznego interfejsu użytkownika (GUI) ma potencjał redefiniowania sposobu, w jaki systemy AI autonomicznie operują w środowiskach takich jak Linux. GTA1 osiągnął znaczący sukces, uzyskując 45.2% współczynnik powodzenia zadań w benchmarku OSWorld, wyprzedzając tym samym model CUA (Computer-Using Agent) firmy OpenAI. Jest to wynik godny uwagi w kontekście otwartych modeli.
Wyzwania w projektowaniu agentów GUI
Agenci GUI konwertują złożone instrukcje użytkownika na sekwencje działań – kliknięć, naciśnięć klawiszy czy interakcji z elementami interfejsu użytkownika. Kluczowe jest przy tym reagowanie na zmiany w UI po każdej akcji, co umożliwia planowanie kolejnych kroków. Niemniej jednak, dwa fundamentalne wyzwania wciąż spowalniają rozwój tej technologii:
Pierwsze to niejednoznaczność planowania, gdzie wiele sekwencji działań może prowadzić do tego samego celu, każda z nich różniąc się efektywnością i niezawodnością. Drugie to precyzja ugruntowania, czyli przekształcanie abstrakcyjnych propozycji działań w niezwykle dokładne interakcje na poziomie współrzędnych, co jest szczególnie trudne w dynamicznych, wysoko rozdzielczych interfejsach. GTA1 oferuje innowacyjne mechanizmy mające na celu rozwiązanie obu tych problemów.
Inteligentniejsze planowanie dzięki skalowaniu w czasie testu
Tradycyjne metody planowania charakteryzują się tym, że w każdym punkcie decyzyjnym agent zobowiązuje się do wykonania jednej, konkretnej akcji, co ogranicza odporność systemu na błędy. GTA1 wprowadza tutaj intrygujące rozwiązanie: skalowanie w czasie testu. Polega ono na równoległym próbkowaniu wielu kandydatów na działania w każdym kroku, a następnie wykorzystaniu multimodalnego modelu „sędziego” (zazwyczaj jest to duży model językowy) do oceny i wyboru najbardziej trafnej opcji.
Ta technika eliminuje ryzyko przedwczesnego zobowiązania się do suboptymalnych planów i pozwala agentowi dokładniej eksplorować ścieżki wykonania, co jest kluczowe, ponieważ w środowiskach GUI nie zawsze możliwe jest „cofnięcie” wykonanych akcji. Co istotne, metoda ta może być zastosowana z dowolnym planistą i efektywnie skaluje się wraz ze wzrostem złożoności zadań oraz rozmiaru przestrzeni działań.
Uczenie ze wzmocnieniem dla precyzji ugruntowania
Jeżeli chodzi o ugruntowanie GUI, większość dotychczasowych modeli opierała się na nadzorowanym dostrajaniu w celu przewidywania centrum docelowych elementów UI, co ograniczało ich zdolność do generalizacji. GTA1 stosuje ramy uczenia ze wzmocnieniem (RL) oparte na metodzie Group Relative Policy Optimization (GRPO). Zamiast polegać na pośrednim rozumowaniu czy przewidywaniu ramek ograniczających, model uczy się bezpośrednio na podstawie nagród bazujących na kliknięciach: nagroda jest przyznawana tylko wtedy, gdy przewidywana współrzędna znajduje się w obrębie prawidłowego elementu interfejsu użytkownika.
Taka struktura nagród pozwala GTA1 osiągnąć najwyższą precyzję bez zbędnej złożoności czy narzutu związanego z nadzorem. Warto zauważyć, że badania ablacyjne wykazały, że usunięcie pomocniczych sygnałów, takich jak „myślenie” czy nagrody związane z ramkami IoU, w rzeczywistości poprawia wydajność ugruntowania, zwłaszcza w środowiskach statycznych. Jest to dowód na minimalistyczne, lecz efektywne podejście twórców.
Wydajność w benchmarkach
GTA1 wyznacza nowy standard w kilku kluczowych ocenach:
- OSWorld (współczynnik sukcesu zadań): GTA1-7B osiąga 45.2%, przewyższając OpenAI CUA (42.9%) i Claude 3.7 (28.0%).
- ScreenSpot-Pro (dokładność ugruntowania): GTA1-7B uzyskuje 50.1%, będąc lepszym od modeli takich jak UGround-72B (34.5%).
- ScreenSpot-V2 (gruntowanie międzyplatformowe): GTA1-72B osiąga 94.8%, zbliżając się do wyników najlepszych modeli własnościowych.
- OSWorld-G (gruntowanie GUI Linuxa): GTA1-7B uzyskuje 67.7%, przewyższając wszystkie dotychczasowe podejścia open-source.
Wyniki te potwierdzają skuteczność zarówno innowacji w planowaniu, jak i tych w ugruntowaniu wprowadzonych przez GTA1. Dalsze elementy projektowe, takie jak filtrowanie niedopasowanych adnotacji danych przy użyciu OmniParser i skalowalność modelu (od 7B do 72B parametrów, z GTA1-7B oferującym optymalny kompromis między wydajnością a zasobami obliczeniowymi), dodatkowo podkreślają zaawansowanie techniczne tego agenta.
Modularna ścieżka do precyzji
GTA1 udowadnia, że agenci GUI mogą być solidni i precyzyjni, jeśli zastosuje się modularną dwuetapową strukturę, wzbogaconą o różnorodność planowania w czasie testu oraz precyzyjne ugruntowanie oparte na uczeniu ze wzmocnieniem. Rezygnując z niepotrzebnej złożoności – jak na przykład rozumowanie „łańcucha myśli” w statycznych zadaniach – Salesforce AI stworzyło minimalistyczną, a zarazem wysoce efektywną architekturę agentów, która przesuwa granice możliwości w interakcji z cyfrowymi środowiskami.
