GUI-Owl i Mobile-Agent-v3: Alibaba prezentuje nową generację AI do automatyzacji interfejsów graficznych
Wraz z powszechnością interfejsów graficznych na urządzeniach mobilnych, komputerach i w sieci, rośnie zapotrzebowanie na skuteczne metody automatyzacji zadań. Tradycyjne rozwiązania, takie jak skrypty i ręcznie tworzone reguły, często okazują się niewystarczające i mało elastyczne. Odpowiedzią na te wyzwania ma być najnowsze dzieło inżynierów z Alibaba Qwen – GUI-Owl i Mobile-Agent-v3.
GUI-Owl: Kompleksowe rozwiązanie multimodalne
GUI-Owl to natywny model multimodalny, który bazuje na architekturze Qwen2.5-VL. Został on gruntownie przeszkolony na ogromnych zbiorach danych interakcji z różnorodnymi interfejsami graficznymi. To, co wyróżnia GUI-Owl, to zunifikowane podejście do percepcji, rozumowania, planowania i wykonywania działań. Model ten integruje te wszystkie elementy w ramach jednej sieci neuronowej, co przekłada się na dużą niezawodność i zdolność do prowadzenia złożonych, wieloetapowych interakcji.
Kluczowe innowacje w GUI-Owl to m.in.:
- Zunifikowana sieć decyzyjna: GUI-Owl łączy percepcję, planowanie i wykonanie w jednym module, co umożliwia płynne podejmowanie decyzji w złożonych scenariuszach.
- Skalowalna infrastruktura treningowa: Zespół Alibaba stworzył środowisko w chmurze, obejmujące systemy Android, Ubuntu, macOS i Windows, aby generować wysokiej jakości dane treningowe.
- Zróżnicowana synteza danych: Model uczy się rozumieć treść wizualną i zależności przyczynowo-skutkowe, korzystając z różnorodnych strategii syntezy danych.
- Uczenie ze wzmocnieniem: GUI-Owl jest udoskonalany poprzez uczenie ze wzmocnieniem, co pozwala na optymalizację działania w zadaniach, gdzie nagrody są rzadkie i dostępne dopiero po zakończeniu zadania.
Mobile-Agent-v3: Koordynacja wielu agentów
Mobile-Agent-v3 to uniwersalny framework do automatyzacji złożonych, wieloetapowych zadań, które często wymagają interakcji z różnymi aplikacjami. Dzieli on zadania na mniejsze podcele, dynamicznie aktualizuje plany na podstawie otrzymywanych informacji zwrotnych i przechowuje informacje kontekstowe, które są istotne dla długoterminowych zadań.
W ramach Mobile-Agent-v3 współpracują cztery wyspecjalizowane typy agentów:
- Agent Zarządzający: Dzieli instrukcje na podcele i aktualizuje plan działania.
- Agent Wykonawczy: Wykonuje najbardziej odpowiedni podcel, uwzględniając kontekst i dotychczasowe wyniki.
- Agent Refleksyjny: Ocenia wyniki każdego działania i generuje informacje zwrotne.
- Agent Notujący: Przechowuje informacje (np. kody, hasła) pomiędzy różnymi aplikacjami.
Samo-udoskonalący się proces treningowy
Jednym z największych wyzwań w rozwoju agentów GUI jest brak wysokiej jakości danych treningowych. Zespół Alibaba Qwen rozwiązał ten problem, tworząc samo-udoskonalający się proces produkcji danych. System ten obejmuje generowanie zapytań, generowanie trajektorii interakcji agenta z interfejsem, ocenę poprawności tych trajektorii i syntezę wskazówek dla agenta na podstawie udanych interakcji.
Wyniki i wydajność
GUI-Owl i Mobile-Agent-v3 zostały poddane rygorystycznym testom porównawczym, obejmującym zadania związane z rozumieniem interfejsu, podejmowaniem decyzji i realizacją kompleksowych zadań.
W testach rozumienia interfejsu, GUI-Owl-7B przewyższa wszystkie otwarte modele o porównywalnej wielkości, a GUI-Owl-32B dorównuje modelom takim jak GPT-4o i Claude 3.7. W zadaniach, które wymagają kompleksowego rozumienia interfejsu i podejmowania decyzji, GUI-Owl również osiąga znakomite wyniki, znacząco przewyższając konkurencję.
W testach, które symulują rzeczywiste zadania w interaktywnym środowisku, Mobile-Agent-v3 ustanawia nowy standard dla otwartych frameworków. Wykorzystanie wielu agentów okazuje się szczególnie skuteczne w przypadku długoterminowych i podatnych na błędy zadań.
Wnioski
GUI-Owl i Mobile-Agent-v3 stanowią istotny krok naprzód w kierunku wszechstronnych i autonomicznych agentów GUI. Dzięki zintegrowanemu podejściu do percepcji, rozumowania i działania oraz skalowalnemu procesowi treningowemu, narzędzia te osiągają znakomite wyniki w różnych środowiskach, zarówno mobilnych, jak i desktopowych.
