Agenci AIR & D

Przełom w szkoleniu agentów webowych: Go-Browse z Carnegie Mellon otwiera nowe perspektywy

Automatyzacja zadań w środowisku internetowym, takich jak nawigacja po stronach, klikanie przycisków czy wypełnianie formularzy, pozostaje znaczącym wyzwaniem dla cyfrowych agentów. Mimo zaawansowania dużych modeli językowych w innych dziedzinach, ich skuteczność w przypadku interfejsów graficznych (GUI) stron internetowych jest nadal ograniczona. Kluczowy problem leży w złożoności i ciągłej ewolucji sieci, co utrudnia agentom dokładne rozumienie dynamicznych treści i elastyczne reagowanie.

Trudności w skalowaniu danych treningowych

Jedną z fundamentalnych przeszkód jest ograniczona zdolność agentów do adaptacji w nieznanych lub skomplikowanych środowiskach. W przeciwieństwie do statycznych zbiorów danych, rzeczywiste środowisko internetowe wymaga ciągłego podejmowania decyzji w odpowiedzi na zmieniające się układy stron i przepływy użytkowników. To sprawia, że agenci mają trudności z wiarygodnym wykonywaniem zadań, takich jak odnajdywanie konkretnego produktu czy ukończenie formularza online. Dane kuratowane przez człowieka, choć cenne, są kosztowne w pozyskaniu i nie skalują się w wystarczającym stopniu, aby sprostać różnorodności scenariuszy webowych.

Dotychczasowe metody zbierania danych treningowych, takie jak podejście „interaction-first” (agent eksploruje witryny na podstawie ogólnych instrukcji) czy „instruction-first” (generowanie specyficznych zadań opartych na pojedynczej stronie), generowały zbiory danych obarczone albo redundancją, albo niepraktycznymi zadaniami opartymi na nieistniejących elementach.

Go-Browse: Strukturalna eksploracja grafowa

Naukowcy z Carnegie Mellon University zaproponowali nowatorskie rozwiązanie – Go-Browse. System ten traktuje zbieranie danych jako problem przeszukiwania grafu. Zamiast chaotycznej eksploracji lub statycznych zadań, Go-Browse iteracyjnie buduje graf odwiedzonych adresów URL, wykorzystując tę strukturę do eksploracji zarówno już odkrytych, jak i nowych stron. To umożliwia agentowi powrót do znanych punktów i rozwidlanie ścieżek, co znacząco redukuje redundancję danych, jednocześnie zwiększając ich różnorodność.

Modułowa architektura Go-Browse obejmuje kluczowe komponenty. Moduł NavExplorer skupia się na proponowaniu zadań nawigacyjnych prowadzących do nowych stron, dynamicznie identyfikując linki do nieodkrytych URL-i. Równocześnie PageExplorer proponuje lokalne zadania dla bieżącej strony. Moduł FeasibilityChecker testuje te zadania za pomocą zaawansowanych agentów i modeli wizyjno-językowych, aby określić, czy proponowane akcje mogą zostać pomyślnie wykonane. Tylko zweryfikowane i możliwe do wykonania zadania trafiają do zbioru danych treningowych. Moduł Solvers następnie dokonuje dodatkowego próbkowania realizacji zadań, maksymalizując generowanie danych przy jednoczesnym oszczędzaniu zasobów.

Wyniki i perspektywy

Zespół badawczy poddał Go-Browse ewaluacji na benchmarku WebArena, znanym ze swojej trudności w ocenie agentów bazujących na GUI. Zebrano około 10 000 pomyślnych trajektorii zadań i 17 000 nieudanych, obejmujących 100 unikalnych adresów URL. Dostrojenie modelu Qwen-2.5-7B-Instruct na tym zbiorze danych zaowocowało wskaźnikiem sukcesu zadania na poziomie 21,7%. Wynik ten przewyższył GPT-4o-mini o 2,4% i okazał się lepszy od poprzedzającego modelu NNetNav (poniżej 10 miliardów parametrów) o 2,9%.

Choć w porównaniu do bazowego wskaźnika sukcesu ludzkiego wynoszącego 78% pozostaje wiele miejsca na poprawę, osiągnięte rezultaty stanowią znaczący krok naprzód. Badania wskazują, że kluczową kwestią jest zrozumienie przez cyfrowe agenty złożonych środowisk webowych. Go-Browse, poprzez strukturalną, choć elastyczną strategię łączącą nawigację, planowanie zadań i walidację trajektorii, skutecznie adresuje ten problem. Traktowanie eksploracji jako przeszukiwania grafu oraz zastosowanie modułowej weryfikacji i próbkowania pozwala na generowanie skalowalnych i zróżnicowanych danych treningowych. Te innowacje przekładają się na mierzalny wzrost wydajności, demonstrując potencjał strukturalnej eksploracji do tworzenia inteligentniejszych agentów webowych.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Wymagane pola są oznaczone *