Agenci AIR & D

Evo-Memory i ReMem: Nowe podejście do pamięci w agentach LLM DeepMind i UIUC

Duże modele językowe (LLM), budując swoją pamięć, dotychczas często bazowały na prostym mechanizmie przypominania kontekstu konwersacji. Zapisywały historię dialogu, ślady użycia narzędzi oraz pobrane dokumenty, które następnie integrowano z oknem kontekstowym podczas generowania odpowiedzi. Tego typu pamięć pełniła rolę pasywnego bufora, umożliwiając odzyskiwanie faktów lub odwoływanie się do wcześniejszych kroków. Nie pozwalała jednak na aktywne modyfikowanie strategii agenta w odniesieniu do podobnych zadań, co stanowiło istotne ograniczenie w rozwoju autonomicznych systemów AI.

W odpowiedzi na te wyzwania, zespoły badawcze z Google DeepMind oraz University of Illinois Urbana-Champaign zaproponowały innowacyjne podejście, łączące benchmark Evo-Memory z frameworkiem ReMem. Celem tych rozwiązań jest umożliwienie agentom LLM rzeczywistego uczenia się na błędach i sukcesach, a nie tylko statycznego odtwarzania zapamiętanych informacji. Chodzi o to, aby agenci potrafili gromadzić i ponownie wykorzystywać strategie z ciągłych strumieni zadań, ewolucyjnie dostosowując swoje działania.

Evo-Memory: Pamięć rozwijana w czasie rzeczywistym

Kluczową innowacją Evo-Memory jest odejście od pasywnego gromadzenia danych na rzecz aktywnego ponownego wykorzystania doświadczeń. Każda interakcja jest traktowana jako doświadczenie, które koduje nie tylko dane wejściowe i wyjściowe, ale także informację, czy zadanie zakończyło się sukcesem oraz jakie strategie okazały się skuteczne. Benchmark ma za zadanie sprawdzić, czy agenci potrafią odzyskać te doświadczenia w późniejszych zadaniach, zastosować je jako procedury wielokrotnego użytku i w miarę upływu czasu udoskonalać swoją pamięć.

Badacze sformalizowali agenta rozszerzonego o pamięć jako krotkę (F, U, R, C), gdzie F to model podstawowy generujący dane wyjściowe, R odpowiada za wyszukiwanie w magazynie pamięci, C konstruuje kontekst roboczy, a U aktualizuje i rozwija pamięć po każdym kroku. To modularne podejście pozwala na precyzyjne śledzenie wpływu poszczególnych komponentów na ogólną wydajność agenta.

Evo-Memory przekształca konwencjonalne benchmarki w sekwencyjne strumienie zadań. Każdy zestaw danych staje się uporządkowaną sekwencją zadań, gdzie wcześniejsze elementy niosą strategie przydatne dla późniejszych. Zestaw testowy obejmuje m.in. AIME 24, AIME 25, GPQA Diamond, ekonomię MMLU-Pro, inżynierię, filozofię oraz ToolBench do użycia narzędzi, a także środowiska wieloetapowe z AgentBoard, w tym AlfWorld, BabyAI, ScienceWorld, Jericho i planowanie PDDL.

Ocena odbywa się w czterech osiach: zadania jednoetapowe (dokładne dopasowanie lub dokładność odpowiedzi), środowiska wbudowane (wskaźnik sukcesu i postępu), efektywność kroków (średnia liczba kroków na udane zadanie) oraz odporność sekwencji (stabilność wydajności przy zmianie kolejności zadań).

Od ExpRAG do ReMem: Ewolucja mechanizmów pamięciowych

Jako punkt odniesienia, badacze zdefiniowali ExpRAG (Experience Retrieval Augmented Generation). W tym ujęciu, każda interakcja staje się ustrukturyzowanym tekstem doświadczenia z szablonem ⟨xi, ŷi, fi⟩, gdzie xi to dane wejściowe, ŷi to wynik modelu, a fi to informacja zwrotna (np. sygnał poprawności). W nowym kroku agent pobiera podobne doświadczenia z pamięci, wykorzystując wynik podobieństwa, i łączy je z bieżącymi danymi wejściowymi jako przykłady w kontekście, po czym dodaje nowe doświadczenie do pamięci. ExpRAG, choć prosty w założeniu, demonstruje, że nawet minimalne ponowne wykorzystanie doświadczeń na poziomie zadania może prowadzić do znaczących ulepszeń.

Głównym wkładem po stronie agenta jest jednak ReMem (Retrieve-Edit-Memorize), czyli potok działania, myślenia i udoskonalania pamięci, zbudowany na tych samych modelach bazowych. W każdym wewnętrznym kroku, biorąc pod uwagę bieżące dane wejściowe, stan pamięci i ślady poprzedniego rozumowania, agent wybiera jedną z trzech operacji: Think (generuje pośrednie ślady rozumowania rozkładające zadanie), Act (wykonuje akcję środowiskową lub ostateczną odpowiedź widoczną dla użytkownika) oraz Refine (wykonuje meta-rozumowanie na pamięci poprzez wyszukiwanie, przycinanie i reorganizowanie wpisów doświadczeń).

W przeciwieństwie do standardowych agentów w stylu ReAct, pamięć w ReMem nie jest już statycznym buforem. Staje się ona aktywnym obiektem, nad którym agent rozumuje i który edytuje podczas wnioskowania. To dynamiczne zarządzanie pamięcią pozwala na znacznie efektywniejsze adaptowanie się do nowych sytuacji i złożonych zadań.

Wyniki i perspektywy

Zastosowanie tych metod na modelach Gemini 2.5 Flash i Claude 3.7 Sonnet, w jednolitym protokole wyszukiwania, przewidywania i ewolucji, pozwoliło na izolowanie efektu architektury pamięci. Na benchmarkach jednoetapowych metody z ewoluującą pamięcią przyniosły spójne, choć umiarkowane korzyści. Dla Gemini 2.5 Flash, ReMem osiągnął średnie dokładne dopasowanie 0.65 w testach takich jak AIME 24, AIME 25, GPQA Diamond i podzestawach MMLU Pro, oraz 0.85 API i 0.71 dokładności na ToolBench.

Wpływ ReMem jest znacznie większy w środowiskach wieloetapowych. Na Claude 3.7 Sonnet, ReMem osiągnął sukces i postęp odpowiednio 0.92 i 0.96 w AlfWorld, 0.73 i 0.83 w BabyAI, 0.83 i 0.95 w PDDL oraz 0.62 i 0.89 w ScienceWorld. Średnio daje to 0.78 sukcesu i 0.91 postępu w różnych zestawach danych. Co istotne, ReMem znacząco poprawił efektywność kroków, redukując średnią liczbę kroków do wykonania zadania z 22.6 (dla bazowej historii) do 11.5 w AlfWorld. Wskazuje to, że nawet proste ponowne wykorzystanie doświadczeń na poziomie zadań może uczynić zachowanie agenta bardziej efektywnym bez konieczności zmian w architekturze bazowej.

Analiza wykazała również silną korelację między zyskami a podobieństwem zadań w każdym zbiorze danych. To sugeruje, że mechanizmy pamięciowe ReMem są szczególnie skuteczne w domenach strukturyzowanych, gdzie wcześniejsze doświadczenia mogą być bezpośrednio przenoszone na nowe wyzwania. PDDL i AlfWorld, jako domeny z wyraźną strukturą, pokazały większe ulepszenia niż bardziej zróżnicowane zestawy.

Evo-Memory i ReMem to krok milowy w kierunku budowania agentów LLM, które potrafią aktywnie uczyć się i adaptować w czasie rzeczywistym. Badania te przekształcają ewolucję w trakcie testu w konkretny cel projektowy dla systemów agentów LLM, otwierając drogę do bardziej inteligentnych i autonomicznych rozwiązań w dziedzinie sztucznej inteligencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *