MolmoWeb: Allen Institute for AI rzuca wyzwanie gigantom otwartością swojego agenta internetowego
Wzrok zamiast kodu: nowa filozofia nawigacji
Większość dzisiejszych agentów AI, zdolnych do rezerwacji lotów czy wypełniania formularzy, polega na głębokiej analizie kodu źródłowego stron. Allen Institute for AI (AI2) postanowił jednak pójść inną drogą, prezentując MolmoWeb. To system, który postrzega sieć tak jak człowiek – poprzez wizualną interpretację interfejsu. Zamiast przeszukiwać strukturę DOM, agent wykonuje zrzut ekranu, analizuje go i na tej podstawie decyduje o kolejnym ruchu: kliknięciu, przewinięciu strony czy wpisaniu adresu URL.
Taka strategia ma solidne uzasadnienie merytoryczne. Warstwa wizualna stron internetowych zmienia się znacznie rzadziej niż ich ukryty pod spodem kod, co czyni agenta bardziej odpornym na techniczne modyfikacje witryn. Co więcej, decyzje modelu oparte na tym, co faktycznie widać na ekranie, są znacznie łatwiejsze do zweryfikowania przez użytkownika.
Potęga danych, nie rozmiar parametrów
Największym przełomem nie są tu jednak same parametry modeli (dostępne w wersjach 4B i 8B), lecz stojący za nimi zbiór danych MolmoWebMix. AI2 udostępniło go w całości, adresując tym samym największy problem otwartego oprogramowania – brak wysokiej jakości materiałów treningowych, które dotychczas były pilnie strzeżoną tajemnicą korporacji.
Zestaw ten obejmuje 36 tysięcy pełnych sesji przeglądania wykonanych przez ludzi na ponad 1100 stronach, a także miliony par pytań i odpowiedzi dotyczących zrzutów ekranu. Co ciekawe, badacze odkryli, że MolmoWeb uczy się efektywniej z syntetycznych sesji wygenerowanych przez inne systemy AI niż z działań ludzi. Powód jest prozaiczny: automaty poruszają się po sieci w sposób bardziej liniowy i optymalny, podczas gdy użytkownicy często błądzą i wykonują zbędne ruchy, co wprowadza szum informacyjny do procesu uczenia.
Dawid rzuca wyzwanie Goliatowi
Wyniki testów benchmarkowych są zaskakujące. MolmoWeb-8B w teście WebVoyager osiągnął wynik 78,2%, co stawia go niemal na równi z modelem o3 od OpenAI (79,3%). Warto zaznaczyć, że system AI2 pokonuje znacznie większe, zamknięte modele, nawet te, które mają dostęp do pełnych metadanych stron. Eksperci wskazują jednak na pewien koszt podejścia „screenshot-only” – model musi sam radzić sobie z rozpoznawaniem tekstu, co czasem prowadzi do błędów przy skomplikowanych treściach.
Zastosowano tu jednak ciekawe obejście: gdy agent może wykonać zadanie kilkukrotnie i wybrać najlepszy wynik, jego skuteczność w testach wzrasta z 78% do niemal 95%. To dowód na to, że zwiększenie mocy obliczeniowej w momencie generowania odpowiedzi (inference time) pozwala małym modelom przeskoczyć barierę swojej skali.
Transparentność jako mechanizm bezpieczeństwa
Mimo sukcesów, MolmoWeb nie jest narzędziem pozbawionym ograniczeń. Twórcy celowo wykluczyli z treningu zadania wymagające logowania czy płatności, a publiczne demo posiada restrykcyjne filtry blokujące pola haseł. Pozostają też pytania o aspekty prawne – jak agenci AI powinni traktować regulaminy serwisów czy ochronę prywatności?
AI2 argumentuje, że tylko pełna otwartość wag modelu, kodu i danych pozwoli szerokiej społeczności na wypracowanie standardów bezpieczeństwa. W czasie, gdy giganci tacy jak Microsoft przejmują kluczowych badaczy z sektora non-profit, MolmoWeb staje się ważnym bastionem transparentnej sztucznej inteligencji, dostępnym dla każdego na licencji Apache 2.0.
