Agenci AI

ReasoningBank: Google AI prezentuje nową architekturę pamięci dla agentów LLM, która pozwala im uczyć się na błędach w czasie rzeczywistym

W świecie sztucznej inteligencji, gdzie agenci języka naturalnego (LLM) podejmują się złożonych zadań, kluczowe staje się, by potrafili efektywnie uczyć się na własnych doświadczeniach. Standardowe rozwiązania często zawodzą, gromadząc jedynie surowe dane lub sztywne schematy, które nie przekładają się na elastyczność w zmiennych środowiskach. Inżynierowie z Google Research postanowili podejść do tematu od innej strony i zaproponowali ReasoningBank – framework, który ma zmienić zasady gry.

Czym jest ReasoningBank?

ReasoningBank to architektura pamięci dla agentów AI, która pozwala im na wyciąganie wniosków z własnych interakcji, także tych nieudanych. Zamiast przechowywać surowe dane, framework przekształca doświadczenia w zwarte, zrozumiałe dla człowieka strategie. Te strategie są następnie wykorzystywane do podejmowania przyszłych decyzji, tworząc pętlę samodoskonalenia się agenta.

Jak to działa?

Każde doświadczenie jest destylowane do postaci elementu pamięci, zawierającego tytuł, krótki opis i treść z zasadami działania (heurystyki, sprawdzenia, ograniczenia). System pobiera elementy na podstawie podobieństwa semantycznego. Dla nowego zadania, system wstrzykuje najbardziej odpowiednie elementy jako wskazówki. Po wykonaniu zadania, nowe elementy są ekstrahowane i dodawane do banku pamięci. Prostota tego cyklu – pobierz → wstrzyknij → oceń → wydestylować → dodaj – pozwala przypisać poprawę efektywności właśnie abstrakcji strategii, a nie złożonemu zarządzaniu pamięcią.

Klucz do transferu wiedzy

Elementy pamięci kodują wzorce rozumowania („preferuj strony kont dla danych specyficznych dla użytkownika; zweryfikuj tryb paginacji; unikaj pułapek nieskończonego przewijania; sprawdź stan ze specyfikacją zadania”), a nie kroki specyficzne dla konkretnej witryny. Porażki stają się ograniczeniami („nie polegaj na wyszukiwaniu, gdy witryna wyłącza indeksowanie; potwierdź stan zapisu przed nawigacją”), co zapobiega powtarzaniu błędów.

Memory-Aware Test-Time Scaling (MaTTS)

Skalowanie w czasie testowania (uruchamianie większej liczby wdrożeń lub ulepszeń na zadanie) jest skuteczne tylko wtedy, gdy system może uczyć się na dodatkowych trajektoriach. Zespół badawczy zaproponował również Memory-aware Test-Time Scaling (MaTTS), który integruje skalowanie z ReasoningBank:

  • Paralelne MaTTS: generuj (k) wdrożeń równolegle, a następnie porównaj je ze sobą, aby udoskonalić pamięć strategii.
  • Sekwencyjne MaTTS: iteracyjnie udoskonalaj pojedynczą trajektorię, wydobywając pośrednie notatki jako sygnały pamięci.

Synergia jest dwukierunkowa: bogatsza eksploracja tworzy lepszą pamięć; lepsza pamięć kieruje eksplorację w stronę obiecujących gałęzi. Empirycznie, MaTTS daje silniejsze i bardziej monotoniczne zyski niż zwykłe best-of-N bez pamięci.

Wyniki i efektywność

ReasoningBank w połączeniu z MaTTS poprawia skuteczność zadań nawet o 34.2% w porównaniu do systemów bez pamięci i przewyższa wcześniejsze konstrukcje pamięci, które wykorzystywały surowe dane lub procedury oparte wyłącznie na sukcesach. Dodatkowo, liczba kroków interakcji zmniejsza się o 16%, co wskazuje na redukcję zbędnych działań.

Przyszłość agentów AI

ReasoningBank to wtyczka do interaktywnych agentów, którzy używają pętli decyzyjnych w stylu ReAct lub skalowania w czasie testowania best-of-N. Framework ten wzmacnia działanie weryfikatorów i planistów, dostarczając im „esencję” wiedzy w postaci destylowanych lekcji. W przypadku zadań internetowych, uzupełnia on platformy takie jak BrowserGym/WebArena/Mind2Web, a w zadaniach związanych z oprogramowaniem, integruje się z konfiguracjami SWE-Bench-Verified.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *