AgentFlow: Nowa architektura AI od Stanfordu podnosi poprzeczkę w zadaniach wykorzystujących narzędzia
Sztuczna inteligencja coraz częściej wkracza w obszary wymagające nie tylko wiedzy, ale i umiejętności korzystania z narzędzi. Odpowiedzią na to wyzwanie jest AgentFlow, nowa architektura opracowana przez badaczy ze Stanfordu. System ten, oparty na uczeniu się przez wzmacnianie (RL), charakteryzuje się modułową konstrukcją i wysoką skutecznością w zadaniach wykorzystujących różnorodne instrumenty.
Filary AgentFlow: planowanie, wykonanie, weryfikacja i generowanie
AgentFlow dzieli proces rozumowania na cztery kluczowe moduły: Planowanie, Wykonanie, Weryfikację i Generowanie. Planowanie odpowiada za proponowanie celów pośrednich i wybór odpowiednich narzędzi. Wykonanie realizuje zadania przy użyciu wybranych narzędzi. Weryfikacja ocenia postępy i decyduje o kontynuacji. Generowanie tworzy ostateczną odpowiedź po zakończeniu procesu.
Kluczowym elementem jest również pamięć, która rejestruje stany, wywołania narzędzi i sygnały weryfikacji. Taka struktura ogranicza rozrost kontekstu i zapewnia przejrzystość działania agenta. Co istotne, trenowany jest tylko moduł planowania, podczas gdy pozostałe mogą korzystać z gotowych, ustalonych silników.
Flow-GRPO: efektywne uczenie się przez wzmacnianie
Sercem systemu jest Flow-GRPO (Flow-based Group Refined Policy Optimization), nowa metoda uczenia się przez wzmacnianie. Przekształca ona optymalizację długoterminową z rzadkimi nagrodami w pojedyncze, łatwe do zarządzania aktualizacje. Nagroda za wynik końcowy jest przypisywana do każdego kroku, co pozwala na dostosowanie lokalnych decyzji planistycznych do globalnego sukcesu. Dodatkowo, Flow-GRPO wykorzystuje obcięty cel na poziomie tokenu z regularyzacją KL i normalizowanymi grupowo zaletami, aby zapobiec dryfowaniu polityki.
Imponujące wyniki w różnorodnych testach
AgentFlow został przetestowany na dziesięciu różnych zestawach danych, obejmujących zadania z zakresu wyszukiwania wiedzy, rozumowania agentowego, matematyki i nauk ścisłych. System z 7-miliardowym modelem bazowym, dostrojonym za pomocą Flow-GRPO, osiągnął średnie wzrosty w porównaniu do silnych systemów bazowych o +14,9% (wyszukiwanie), +14,0% (rozumowanie agentowe), +14,5% (matematyka) i +4,1% (nauki ścisłe). Co więcej, twórcy twierdzą, że ich system przewyższa GPT-4o w tym samym zestawie testów.
Testy wykazały również, że AgentFlow poprawia jakość planowania, redukuje błędy w wywoływaniu narzędzi (nawet o 28,4% w teście GAIA) oraz wykazuje pozytywne trendy wraz ze wzrostem budżetu obrotów i skali modelu.
Kluczowe wnioski i perspektywy
AgentFlow to obiecujące podejście do tworzenia agentów AI, którzy potrafią efektywnie korzystać z narzędzi. Modułowa architektura, innowacyjna metoda uczenia się Flow-GRPO i imponujące wyniki w testach stawiają go w czołówce systemów tego typu. Dostępność kodu źródłowego na licencji MIT otwiera drogę do dalszych badań i rozwoju tej technologii.
Jednym z istotnych aspektów jest trenowanie tylko modułu planowania, co upraszcza proces uczenia i pozwala na elastyczne wykorzystanie różnych silników dla pozostałych modułów. Poprawa niezawodności w korzystaniu z narzędzi, redukcja błędów i lepsza jakość planowania to kolejne argumenty przemawiające za AgentFlow.
