Dlaczego systemy agentowe AI zawodzą w praktycznym użyciu? Nowe spojrzenie Stanford i Harvard
Systemy agentowe AI, budowane na fundamentach dużych modeli językowych (LLM) i wzbogacone o narzędzia, pamięć oraz interakcje ze środowiskiem zewnętrznym, coraz śmielej wkraczają w obszary odkryć naukowych, rozwoju oprogramowania czy badań klinicznych. Jednak ich rzeczywista użyteczność nierzadko odbiega od obiecujących demonstracji. Typowe bolączki to zawodne wykorzystanie narzędzi, nieskuteczne długoterminowe planowanie oraz słaba generalizacja. Najnowszy artykuł naukowy zatytułowany „Adaptation of Agentic AI”, stworzony przez badaczy ze Stanford, Harvardu, UC Berkeley i Caltech, proponuje ujednolicone podejście do adaptacji tych systemów, wpisując istniejące metody w zwięzłe, matematycznie zdefiniowane ramy.
Badacze modelują system agentowy AI jako agenta opartego na modelu fundamentalnym, uzupełnionego o trzy kluczowe komponenty. Moduł planowania odpowiada za rozkładanie złożonych celów na sekwencje działań. Wykorzystuje statyczne procedury, takie jak Chain-of-Thought (łańcuch myśli) czy Tree-of-Thought (drzewo myśli), jak również dynamiczne, reagujące na sprzężenie zwrotne, np. ReAct czy Reflexion. Moduł użycia narzędzi jest łącznikiem agenta ze środowiskiem zewnętrznym – wyszukiwarkami internetowymi, API, środowiskami do wykonywania kodu, protokołami kontekstu modelu (MCP) czy automatyzacją przeglądarek. Pamięć, czyli trzeci komponent, przechowuje zarówno krótkoterminowy kontekst, jak i długoterminową wiedzę, do której dostęp jest realizowany poprzez generację wspomaganą wyszukiwaniem (RAG). Adaptacja w takich systemach polega na modyfikacji podpowiedzi (prompts) lub parametrów tych komponentów, z wykorzystaniem technik takich jak nadzorowane dostrajanie (supervised fine-tuning), metody oparte na preferencjach (np. Direct Preference Optimization – DPO), uczenie przez wzmacnianie (np. Proximal Policy Optimization – PPO) czy efektywne parametrycznie techniki, takie jak adaptacja niskiego rzędu (low-rank adaptation – LoRA).
Cztery paradygmaty adaptacji agentowej AI
W ramach przedstawionych badań zdefiniowano cztery paradygmaty adaptacji, wynikające z kombinacji dwóch dychotomicznych wyborów. Pierwszym wymiarem jest cel adaptacji: czy dotyczy ona samego agenta, czy narzędzi. Drugi wymiar to sygnał nadzorujący: czy pochodzi on z wykonania narzędzia, czy z końcowego wyniku działania agenta. To rozróżnienie prowadzi do powstania czterech paradygmatów: A1 i A2 dla adaptacji agenta, oraz T1 i T2 dla adaptacji narzędzi.
A1: Adaptacja agenta z sygnałem z wykonania narzędzia (Tool Execution Signaled Agent Adaptation)
Paradygmat A1 optymalizuje agenta, bazując na informacjach zwrotnych (feedback) pochodzących bezpośrednio z wykonania narzędzi. W tym scenariuszu, agent otrzymuje dane wejściowe x, generuje ustrukturyzowane wywołanie narzędzia a, narzędzie zwraca wynik y, a cel uczenia O_tool mierzy sukces narzędzia, na przykład poprawność wykonania lub jakość wyszukiwania. Badanie obejmuje zarówno nadzorowane naśladowanie udanych trajektorii narzędziowych, jak i uczenie przez wzmacnianie, wykorzystujące weryfikowalne wyniki narzędzi jako nagrodę. Przykładami metod z kategorii A1 są Toolformer, ToolAlpaca, Gorilla czy DeepRetrieval, które adaptują agenta bezpośrednio na podstawie weryfikowalnych danych zwrotnych z narzędzi.
A2: Adaptacja agenta z sygnałem z końcowych wyników (Agent Output Signaled Agent Adaptation)
A2 obejmuje przypadki, w których cel optymalizacji O_agent zależy wyłącznie od końcowego wyniku o wygenerowanego przez agenta. Autorzy pracy wskazują, że samo nadzorowanie o nie jest wystarczające do efektywnego nauczania narzędzi, ponieważ agent może ignorować narzędzia i nadal poprawiać prawdopodobieństwo sukcesu. Skuteczne systemy A2 łączą zatem nadzorowanie wywołań narzędzi z nadzorowaniem odpowiedzi końcowych, lub przypisują rzadkie nagrody (np. precyzję dokładnego dopasowania) do o i propagują je wstecz przez całą trajektorię.
T1: Niezależne od agenta szkolenie narzędzi (Agent-Agnostic Tool Training)
W paradygmacie T1, główny agent pozostaje niezmieniony, a optymalizacji podlegają narzędzia, tak aby były szeroko użyteczne. Cel O_tool zależy wyłącznie od wyników narzędzi i jest mierzony metrykami takimi jak dokładność wyszukiwania, jakość rankingu, wierność symulacji czy powodzenie w dalszych zadaniach. Polityki wyszukiwania trenowane w trybie A1, takie jak DeepRetrieval, mogą być później ponownie wykorzystane jako narzędzia T1 w nowych systemach agentowych AI, bez konieczności modyfikacji głównego agenta.
T2: Narzędzia optymalizowane pod nadzorem zamrożonego agenta (Agent-Supervised Tool Adaptation)
T2 zakłada istnienie potężnego, ale stałego agenta A. Cel optymalizacji ponownie koncentruje się na O_agent, jednak parametry podlegające uczeniu należą do narzędzia. Artykuł opisuje trening ważony jakością, trening oparty na celu oraz warianty uczenia przez wzmacnianie, które wszystkie czerpią sygnały uczenia dla narzędzia z końcowych wyników agenta.
Kluczowe wnioski
Badania zarysowują precyzyjną, czteroparadygmatyczną ramę adaptacji systemów agentowych AI, krzyżując dwie osie: cel adaptacji (agent czy narzędzia) oraz źródło sygnału nadzorującego (wykonanie narzędzia czy końcowe wyniki agenta). Metody A1 adaptują agenta bezpośrednio na podstawie weryfikowalnych informacji zwrotnych z narzędzi, podczas gdy metody A2 optymalizują agenta na podstawie sygnałów z końcowych wyników, np. dokładności odpowiedzi. Paradygmaty T1 i T2 przenoszą uczenie na narzędzia i pamięć; T1 szkoli ogólnie użyteczne systemy wyszukiwania, przeszukiwania i symulacji bez konkretnego agenta w tle, a T2 adaptuje narzędzia pod nadzorem zamrożonego agenta. To rozróżnienie ma kluczowe znaczenie dla rozwoju bardziej niezawodnych i elastycznych systemów agentowych AI, zdolnych do skutecznego działania w złożonych, rzeczywistych środowiskach.
