Przełom w szkoleniu agentów webowych: Go-Browse z Carnegie Mellon otwiera nowe perspektywy
Automatyzacja zadań w środowisku internetowym, takich jak nawigacja po stronach, klikanie przycisków czy wypełnianie formularzy, pozostaje znaczącym wyzwaniem dla cyfrowych agentów. Mimo zaawansowania dużych modeli językowych w innych dziedzinach, ich skuteczność w przypadku interfejsów graficznych (GUI) stron internetowych jest nadal ograniczona. Kluczowy problem leży w złożoności i ciągłej ewolucji sieci, co utrudnia agentom dokładne rozumienie dynamicznych treści i elastyczne reagowanie.
Trudności w skalowaniu danych treningowych
Jedną z fundamentalnych przeszkód jest ograniczona zdolność agentów do adaptacji w nieznanych lub skomplikowanych środowiskach. W przeciwieństwie do statycznych zbiorów danych, rzeczywiste środowisko internetowe wymaga ciągłego podejmowania decyzji w odpowiedzi na zmieniające się układy stron i przepływy użytkowników. To sprawia, że agenci mają trudności z wiarygodnym wykonywaniem zadań, takich jak odnajdywanie konkretnego produktu czy ukończenie formularza online. Dane kuratowane przez człowieka, choć cenne, są kosztowne w pozyskaniu i nie skalują się w wystarczającym stopniu, aby sprostać różnorodności scenariuszy webowych.
Dotychczasowe metody zbierania danych treningowych, takie jak podejście „interaction-first” (agent eksploruje witryny na podstawie ogólnych instrukcji) czy „instruction-first” (generowanie specyficznych zadań opartych na pojedynczej stronie), generowały zbiory danych obarczone albo redundancją, albo niepraktycznymi zadaniami opartymi na nieistniejących elementach.
Go-Browse: Strukturalna eksploracja grafowa
Naukowcy z Carnegie Mellon University zaproponowali nowatorskie rozwiązanie – Go-Browse. System ten traktuje zbieranie danych jako problem przeszukiwania grafu. Zamiast chaotycznej eksploracji lub statycznych zadań, Go-Browse iteracyjnie buduje graf odwiedzonych adresów URL, wykorzystując tę strukturę do eksploracji zarówno już odkrytych, jak i nowych stron. To umożliwia agentowi powrót do znanych punktów i rozwidlanie ścieżek, co znacząco redukuje redundancję danych, jednocześnie zwiększając ich różnorodność.
Modułowa architektura Go-Browse obejmuje kluczowe komponenty. Moduł NavExplorer skupia się na proponowaniu zadań nawigacyjnych prowadzących do nowych stron, dynamicznie identyfikując linki do nieodkrytych URL-i. Równocześnie PageExplorer proponuje lokalne zadania dla bieżącej strony. Moduł FeasibilityChecker testuje te zadania za pomocą zaawansowanych agentów i modeli wizyjno-językowych, aby określić, czy proponowane akcje mogą zostać pomyślnie wykonane. Tylko zweryfikowane i możliwe do wykonania zadania trafiają do zbioru danych treningowych. Moduł Solvers następnie dokonuje dodatkowego próbkowania realizacji zadań, maksymalizując generowanie danych przy jednoczesnym oszczędzaniu zasobów.
Wyniki i perspektywy
Zespół badawczy poddał Go-Browse ewaluacji na benchmarku WebArena, znanym ze swojej trudności w ocenie agentów bazujących na GUI. Zebrano około 10 000 pomyślnych trajektorii zadań i 17 000 nieudanych, obejmujących 100 unikalnych adresów URL. Dostrojenie modelu Qwen-2.5-7B-Instruct na tym zbiorze danych zaowocowało wskaźnikiem sukcesu zadania na poziomie 21,7%. Wynik ten przewyższył GPT-4o-mini o 2,4% i okazał się lepszy od poprzedzającego modelu NNetNav (poniżej 10 miliardów parametrów) o 2,9%.
Choć w porównaniu do bazowego wskaźnika sukcesu ludzkiego wynoszącego 78% pozostaje wiele miejsca na poprawę, osiągnięte rezultaty stanowią znaczący krok naprzód. Badania wskazują, że kluczową kwestią jest zrozumienie przez cyfrowe agenty złożonych środowisk webowych. Go-Browse, poprzez strukturalną, choć elastyczną strategię łączącą nawigację, planowanie zadań i walidację trajektorii, skutecznie adresuje ten problem. Traktowanie eksploracji jako przeszukiwania grafu oraz zastosowanie modułowej weryfikacji i próbkowania pozwala na generowanie skalowalnych i zróżnicowanych danych treningowych. Te innowacje przekładają się na mierzalny wzrost wydajności, demonstrując potencjał strukturalnej eksploracji do tworzenia inteligentniejszych agentów webowych.
