Agenci AINarzędzia

GUI-Owl i Mobile-Agent-v3: Alibaba prezentuje nową generację AI do automatyzacji interfejsów graficznych

Wraz z powszechnością interfejsów graficznych na urządzeniach mobilnych, komputerach i w sieci, rośnie zapotrzebowanie na skuteczne metody automatyzacji zadań. Tradycyjne rozwiązania, takie jak skrypty i ręcznie tworzone reguły, często okazują się niewystarczające i mało elastyczne. Odpowiedzią na te wyzwania ma być najnowsze dzieło inżynierów z Alibaba Qwen – GUI-Owl i Mobile-Agent-v3.

GUI-Owl: Kompleksowe rozwiązanie multimodalne

GUI-Owl to natywny model multimodalny, który bazuje na architekturze Qwen2.5-VL. Został on gruntownie przeszkolony na ogromnych zbiorach danych interakcji z różnorodnymi interfejsami graficznymi. To, co wyróżnia GUI-Owl, to zunifikowane podejście do percepcji, rozumowania, planowania i wykonywania działań. Model ten integruje te wszystkie elementy w ramach jednej sieci neuronowej, co przekłada się na dużą niezawodność i zdolność do prowadzenia złożonych, wieloetapowych interakcji.

Kluczowe innowacje w GUI-Owl to m.in.:

  • Zunifikowana sieć decyzyjna: GUI-Owl łączy percepcję, planowanie i wykonanie w jednym module, co umożliwia płynne podejmowanie decyzji w złożonych scenariuszach.
  • Skalowalna infrastruktura treningowa: Zespół Alibaba stworzył środowisko w chmurze, obejmujące systemy Android, Ubuntu, macOS i Windows, aby generować wysokiej jakości dane treningowe.
  • Zróżnicowana synteza danych: Model uczy się rozumieć treść wizualną i zależności przyczynowo-skutkowe, korzystając z różnorodnych strategii syntezy danych.
  • Uczenie ze wzmocnieniem: GUI-Owl jest udoskonalany poprzez uczenie ze wzmocnieniem, co pozwala na optymalizację działania w zadaniach, gdzie nagrody są rzadkie i dostępne dopiero po zakończeniu zadania.

Mobile-Agent-v3: Koordynacja wielu agentów

Mobile-Agent-v3 to uniwersalny framework do automatyzacji złożonych, wieloetapowych zadań, które często wymagają interakcji z różnymi aplikacjami. Dzieli on zadania na mniejsze podcele, dynamicznie aktualizuje plany na podstawie otrzymywanych informacji zwrotnych i przechowuje informacje kontekstowe, które są istotne dla długoterminowych zadań.

W ramach Mobile-Agent-v3 współpracują cztery wyspecjalizowane typy agentów:

  • Agent Zarządzający: Dzieli instrukcje na podcele i aktualizuje plan działania.
  • Agent Wykonawczy: Wykonuje najbardziej odpowiedni podcel, uwzględniając kontekst i dotychczasowe wyniki.
  • Agent Refleksyjny: Ocenia wyniki każdego działania i generuje informacje zwrotne.
  • Agent Notujący: Przechowuje informacje (np. kody, hasła) pomiędzy różnymi aplikacjami.

Samo-udoskonalący się proces treningowy

Jednym z największych wyzwań w rozwoju agentów GUI jest brak wysokiej jakości danych treningowych. Zespół Alibaba Qwen rozwiązał ten problem, tworząc samo-udoskonalający się proces produkcji danych. System ten obejmuje generowanie zapytań, generowanie trajektorii interakcji agenta z interfejsem, ocenę poprawności tych trajektorii i syntezę wskazówek dla agenta na podstawie udanych interakcji.

Wyniki i wydajność

GUI-Owl i Mobile-Agent-v3 zostały poddane rygorystycznym testom porównawczym, obejmującym zadania związane z rozumieniem interfejsu, podejmowaniem decyzji i realizacją kompleksowych zadań.

W testach rozumienia interfejsu, GUI-Owl-7B przewyższa wszystkie otwarte modele o porównywalnej wielkości, a GUI-Owl-32B dorównuje modelom takim jak GPT-4o i Claude 3.7. W zadaniach, które wymagają kompleksowego rozumienia interfejsu i podejmowania decyzji, GUI-Owl również osiąga znakomite wyniki, znacząco przewyższając konkurencję.

W testach, które symulują rzeczywiste zadania w interaktywnym środowisku, Mobile-Agent-v3 ustanawia nowy standard dla otwartych frameworków. Wykorzystanie wielu agentów okazuje się szczególnie skuteczne w przypadku długoterminowych i podatnych na błędy zadań.

Wnioski

GUI-Owl i Mobile-Agent-v3 stanowią istotny krok naprzód w kierunku wszechstronnych i autonomicznych agentów GUI. Dzięki zintegrowanemu podejściu do percepcji, rozumowania i działania oraz skalowalnemu procesowi treningowemu, narzędzia te osiągają znakomite wyniki w różnych środowiskach, zarówno mobilnych, jak i desktopowych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *