Agenci AI

DeepAgent: Nowa era autonomicznych agentów AI zintegrowanych w jednym procesie rozumowania

Większość agentów AI funkcjonuje w oparciu o predefiniowaną pętlę rozumowania, która z góry zakłada zestaw dostępnych narzędzi. To podejście, choć skuteczne w prostszych zadaniach, staje się niewydolne w miarę wzrostu skali problemu, kiedy agent musi zarządzać obszernym zestawem narzędzi, wykonywać długie sekwencje operacji lub dynamicznie zmieniać strategię. Odpowiedzią na te wyzwania jest DeepAgent, innowacyjna architektura, która ma na celu znaczne zwiększenie autonomii i elastyczności systemów AI.

Zintegrowane rozumowanie z dynamicznym odkrywaniem narzędzi

DeepAgent wyróżnia się tym, że pozwala modelowi bezpośrednio generować cztery typy akcji w formie tekstowej: myśl wewnętrzną, wyszukiwanie narzędzi, wywołanie narzędzia oraz kompresję pamięci. Kiedy agent decyduje się na wyszukiwanie narzędzi, odpytuje indeks zawierający opisy narzędzi z dużych rejestrów, takich jak ponad 16 000 narzędzi RapidAPI czy 3 912 narzędzi ToolHop. W odpowiedzi otrzymuje jedynie najwyżej ocenione narzędzia, które są osadzone w kontekście. Ta metoda sprawia, że dostęp do narzędzi jest dynamiczny; model nie jest zależny od z góry wczytywanej listy, co pozwala mu na skuteczniejsze adaptowanie się do zmieniających się środowisk.

Autonomiczna kompresja pamięci dla zadań długoterminowych

Długie sekwencje wywołań narzędzi, wyniki wyszukiwania w sieci i odpowiedzi kodu mogą szybko doprowadzić do przepełnienia kontekstu agenta. DeepAgent rozwiązuje ten problem dzięki etapowi autonomicznej kompresji pamięci. Gdy model emituje token fold, pomocniczy model LLM kompresuje całą historię interakcji na trzy kategorie: pamięć epizodyczną (rejestrującą zdarzenia zadania), pamięć roboczą (obejmującą bieżący podcel i ostatnie problemy) oraz pamięć narzędziową (rejestrującą nazwy narzędzi, argumenty i wyniki). Te skompresowane wspomnienia są następnie przekazywane z powrotem jako ustrukturyzowany tekst, co pozwala agentowi kontynuować pracę z kompaktowego, lecz bogatego w informacje stanu.

ToolPO: uczenie ze wzmocnieniem dla efektywnego wykorzystania narzędzi

Uczenie nadzorowane często nie prowadzi do solidnego wykorzystania narzędzi, ponieważ poprawne wywołania narzędzi stanowią jedynie niewielką część długiej generacji. W odpowiedzi na to twórcy DeepAgent wprowadzili optymalizację polityki narzędzi, określaną jako ToolPO (Tool Policy Optimization). ToolPO przeprowadza symulacje na interfejsach API naśladujących rzeczywiste środowiska, co czyni proces szkolenia stabilnym i efektywnym kosztowo. Metoda ta przypisuje nagrodę bezpośrednio do konkretnych tokenów wywołujących narzędzia, co pozwala agentowi nauczyć się nie tylko jak wywoływać narzędzia, ale również kiedy wyszukiwać nowe oraz kiedy kompresować pamięć. Podejście to opiera się na zmodyfikowanym celu uczenia wzmocnionego typu PPO (Proximal Policy Optimization).

Benchmarki i wydajność

Zespół badawczy ocenił DeepAgent na pięciu ogólnych benchmarkach użycia narzędzi (ToolBench, API Bank, TMDB, Spotify, ToolHop) oraz na czterech zadaniach aplikacyjnych (ALFWorld, WebShop, GAIA, HLE). W scenariuszu, gdzie agent otrzymuje dokładnie te narzędzia, których potrzebuje, DeepAgent 32B RL z architekturą referencyjną QwQ 32B osiągnął na przykład 69.0 punktów na ToolBench i 75.3 na API Bank. Wyniki te, będąc najwyższymi dla modeli tej klasy, pokazują jego przewagę nad konkurencyjnymi rozwiązaniami, takimi jak ReAct czy CodeAct, które choć mogą wykazywać wysoką wydajność w pojedynczych zbiorach danych, nie utrzymują tej spójności we wszystkich testach.

W realistycznym scenariuszu otwartego dostępu do narzędzi, gdzie DeepAgent musi najpierw sam znaleźć, a następnie wywołać narzędzia, model osiągnął 64.0 na ToolBench i 40.6 na ToolHop, deklasując wiodące architektury, które osiągnęły odpowiednio 55.0 i 36.2. To pokazuje, że architektura DeepAgent i zastosowane metody szkoleniowe są skuteczniejsze w zarządzaniu dużymi zbiorami narzędzi.

Na zadaniach końcowych, charakteryzujących się dłuższą sekwencją działań i większym „szumem”, DeepAgent również odnotował imponujące wyniki, osiągając 91.8% sukcesu na ALFWorld i 34.4% na WebShop. Zdolność do autonomicznej kompresji pamięci oraz zastosowanie ToolPO są kluczowe dla sukcesu agenta w tych wymagających środowiskach.

Przyszłość agentów AI

DeepAgent stanowi istotny krok w kierunku architektury agentów AI, które nie są zależne od sztywnego predefiniowania narzędzi. System ten integruje autonomiczną myśl, gęste wyszukiwanie narzędzi w obszernych rejestrach, ustrukturyzowane wywoływanie narzędzi oraz kompresję pamięci w jedną spójną pętlę. Wykorzystanie symulowanych interfejsów API w ToolPO to praktyczne rozwiązanie inżynieryjne, które skutecznie eliminuje problemy z opóźnieniami i niestabilnością, typowe dla wcześniejszych agentów. DeepAgent udowadnia, że agenci kompletni z pamięcią i uczeniem ze wzmocnieniem stają się nowym standardem w rozwoju systemów AI.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *