Microsoft przedstawia Fara-7B: model AI, który steruje komputerem lokalnie i efektywnie
Wraz z dynamicznym rozwojem rynku sztucznej inteligencji rośnie zapotrzebowanie na modele zdolne do autonomicznego wykonywania zadań na urządzeniach użytkowników. Microsoft Research odpowiada na to wyzwanie, prezentując Fara-7B – 7-miliardowy, agentowy model językowy (SLM) specjalnie zaprojektowany do interakcji z komputerem. Jego kluczową cechą jest możliwość działania bezpośrednio na urządzeniu użytkownika, percepcja interfejsu za pomocą zrzutów ekranu i przewidywanie akcji myszy oraz klawiatury. Takie podejście znacząco redukuje opóźnienia i dba o prywatność danych, minimalizując ich przesyłanie do chmury.
Od chatbotów do agentów działających na komputerze
Podczas gdy większość konwencjonalnych dużych modeli językowych (LLM) skupia się na generowaniu tekstu, agenci komputerowi, tacy jak Fara-7B, idą o krok dalej. Potrafią oni kontrolować przeglądarkę lub cały interfejs użytkownika, wykonując złożone zadania, takie jak automatyczne wypełnianie formularzy, rezerwowanie podróży czy porównywanie cen produktów. Model ten analizuje zawartość ekranu, rozumie układ strony, a następnie wykonuje akcje niskiego poziomu, takie jak kliknięcia, przewijanie, wpisywanie tekstu, wyszukiwanie w sieci czy nawigacja do konkretnych adresów URL.
Wiele istniejących systemów bazuje na dużych modelach multimodalnych, które są opakowane w złożone struktury integrujące różne narzędzia i parsery. Taka architektura często prowadzi do większych opóźnień i wymaga wdrożenia po stronie serwera. Fara-7B stanowi tu przełom, scalając logikę tych wieloagentowych systemów w jeden, kompaktowy model multimodalny, zbudowany na bazie Qwen2.5-VL-7B. Model ten, zamiast opierać się na rozbudowanych systemach, przetwarza zrzuty ekranu przeglądarki oraz kontekst tekstowy, a następnie bezpośrednio generuje sekwencję myśli, po której następuje wywołanie narzędzia z precyzyjnie określonymi argumentami, takimi jak współrzędne, tekst czy adresy URL.
FaraGen – syntetyczne dane do interakcji webowej
Kluczowym wyzwaniem w rozwoju agentów komputerowych jest dostępność wysokiej jakości danych treningowych, zwłaszcza logów ludzkich interakcji z siecią, które zawierają wieloetapowe działania. Zbieranie takich danych jest czasochłonne i kosztowne. Projekt Fara wprowadza FaraGen, silnik do generowania i filtrowania syntetycznych trajektorii interakcji webowych, które są tworzone na żywych stronach internetowych.
FaraGen działa w trzech etapach. Etap pierwszy, propozycja zadań, rozpoczyna się od wyboru początkowych adresów URL z publicznych korpusów, takich jak ClueWeb22 i Tranco, które są następnie kategoryzowane (np. e-commerce, podróże, rozrywka, fora). Duże modele językowe przekształcają każdy URL w realistyczne zadania, które użytkownicy mogliby wykonywać na danej stronie, takie jak rezerwacja konkretnych biletów do kina lub tworzenie listy zakupów z określonymi ograniczeniami. Ważne jest, aby zadania były możliwe do wykonania bez logowania, w pełni sprecyzowane, użyteczne i automatycznie weryfikowalne.
Drugi etap, rozwiązywanie zadań, wykorzystuje system wieloagentowy oparty na Magentic-One i Magentic-UI. Agent „Orchestrator” planuje strategię wysokiego poziomu i zarządza stanem zadania, podczas gdy agent „WebSurfer” odbiera drzewa dostępności i zrzuty ekranu, a następnie emituje akcje przeglądarki za pośrednictwem Playwright. Agent „UserSimulator” dostarcza dodatkowe instrukcje, gdy zadanie wymaga doprecyzowania.
W trzecim etapie, weryfikacji trajektorii, używane są trzy weryfikatory oparte na LLM. „Alignment Verifier” sprawdza zgodność akcji i końcowej odpowiedzi z zamiarem zadania. „Rubric Verifier” generuje rubrykę podcelów i ocenia częściowe ukończenie. „Multimodal Verifier” analizuje zrzuty ekranu oraz końcową odpowiedź, aby wykryć halucynacje i potwierdzić sukces. Skuteczność tych weryfikatorów, porównana z ocenami ludzkimi, wynosi 83,3%, z wartościami błędów fałszywie pozytywnych i fałszywie negatywnych na poziomie 17-18%.
Po procesie filtrowania FaraGen dostarcza imponującą liczbę 145 603 trajektorii, zawierających 1 010 797 kroków, obejmujących 70 117 unikalnych domen. Trajektorie te mają od 3 do 84 kroków, ze średnią 6,9 kroków, co świadczy o dynamicznym charakterze zadań. Generowanie danych za pomocą zaawansowanych modeli, takich jak GPT-5 i o3, kosztuje około 1 dolara za zweryfikowaną trajektorię.
Architektura modelu i efektywność
Fara-7B to multimodalny model typu „decoder-only”, który wykorzystuje Qwen2.5-VL-7B jako swoją bazę. Model przyjmuje jako dane wejściowe cel użytkownika, najnowsze zrzuty ekranu przeglądarki oraz pełną historię wcześniejszych myśli i działań. Okno kontekstowe wynosi 128 000 tokenów. Na każdym kroku model generuje łańcuch myśli opisujący bieżący stan i plan, a następnie wywołuje narzędzie, które określa następną akcję i jej argumenty.
Przestrzeń narzędziowa odpowiada interfejsowi computer_use Magentic-UI i obejmuje takie akcje jak wpisywanie tekstu, ruch myszy, kliknięcie, przewijanie, nawigacja do URL, wyszukiwanie w sieci czy powrót w historii. Współrzędne są przewidywane bezpośrednio jako pozycje pikseli na zrzucie ekranu, co umożliwia modelowi działanie bez dostępu do drzewa dostępności w czasie inferencji.
Model został wytrenowany metodą nadzorowanego dostrajania (supervised finetuning) na około 1,8 miliona próbek. Dane te obejmują trajektorie FaraGen rozbite na etapy obserwacja-myślenie-działanie, zadania lokalizacji UI, wizualne odpowiedzi na pytania ze zrzutów ekranu oraz zbiory danych dotyczące bezpieczeństwa i odmowy działania.
Wyniki testów
Microsoft ocenił Fara-7B na czterech benchmarkach webowych: WebVoyager, Online-Mind2Web, DeepShop oraz nowym WebTailBench, który skupia się na mniej reprezentowanych segmentach, takich jak rezerwacje restauracji, aplikacje o pracę, wyszukiwanie nieruchomości czy zadania kompozycyjne obejmujące wiele stron. Fara-7B osiągnął na nich wyniki odpowiednio: 73,5% na WebVoyager, 34,1% na Online-Mind2Web, 26,2% na DeepShop i 38,4% na WebTailBench. Wyniki te przewyższają bazowy model UI-TARS-1.5-7B oraz są konkurencyjne w stosunku do większych systemów, takich jak OpenAI computer-use-preview czy konfiguracje Agentów SoM zbudowane na GPT-4o.
Co więcej, Fara-7B okazał się znacznie tańszy w eksploatacji. Na benchmarku WebVoyager model zużywał średnio 124 000 tokenów wejściowych i 1100 tokenów wyjściowych na zadanie (około 16,5 akcji). Zespół badawczy szacuje średni koszt zadania na 0,025 dolara, w porównaniu do około 0,30 dolara dla agentów SoM wspieranych przez zastrzeżone modele, takie jak GPT-5 i o3. Fara-7B zużywa podobną liczbę tokenów wejściowych, ale około dziesięciokrotnie mniej tokenów wyjściowych niż agenci SoM, co otwiera drogę do szerokiego wdrożenia lokalnego.
Fara-7B to znaczący krok w kierunku praktycznych agentów komputerowych, które mogą działać na lokalnym sprzęcie przy niższych kosztach inferencji, jednocześnie zapewniając prywatność. Połączenie Qwen2.5-VL-7B, syntetycznych trajektorii FaraGen i benchmarku WebTailBench wskazuje na jasną ścieżkę od generowania danych wieloagentowych do jednego, kompaktowego modelu, który dorównuje lub przewyższa większe systemy pod względem kluczowych metryk, jednocześnie egzekwując zabezpieczenia i mechanizmy odmowy.
