MEM1: Nowe podejście do zarządzania pamięcią w agentach językowych AI
Wraz z rosnącą złożonością zadań powierzanych nowoczesnym agentom językowym, kluczowe staje się efektywne zarządzanie kontekstem. Dotychczasowe rozwiązania, bazujące na prostym dodawaniu wszystkich przeszłych interakcji do bieżącego promptu, prowadziły do znacznego wzrostu zużycia pamięci, spadku wydajności i ograniczenia zdolności rozumowania przy dłuższych sekwencjach danych, które wykraczały poza zakres treningowy.
Problem jest szczególnie widoczny w scenariuszach takich jak asystenci zakupowi czy badawczy, gdzie kolejne zapytania ściśle zależą od wcześniejszego kontekstu. Rosnące długości promptów stanowią ogromne obciążenie dla zasobów systemowych. Chociaż istnieją moduły zewnętrznej pamięci, ich integracja z rdzeniem rozumowania modelu jest często skomplikowana. To wywołało pytanie o to, czy modele językowe mogą nauczyć się inteligentnego zarządzania swoją pamięcią jako integralnej części procesu rozumowania.
Wyzwania bieżących rozwiązań i narodziny MEM1
Agenci LLM ewoluowali od prostych odpowiedzi na zapytania do złożonych, wieloetapowych zadań, takich jak przeglądanie stron internetowych. Frameworki, łączące rozumowanie i działanie, jak ReAct, umożliwiły te postępy. Jednakże zarządzanie pamięcią w wieloetapowych interakcjach pozostaje wyzwaniem. Powszechne podejście, polegające na dodawaniu całego kontekstu do każdego promptu, prowadzi do nieefektywnego wykorzystania pamięci. Narzędzia zewnętrzne, takie jak systemy wyszukiwania czy moduły podsumowujące, choć pomocne, są często oddzielone od rdzenia rozumowania agenta, co komplikuje ich integrację.
W odpowiedzi na te wyzwania, badacze z Massachusetts Institute of Technology (MIT), National University of Singapore (NUS), SMART i Yonsei University opracowali MEM1. Jest to framework oparty na uczeniu ze wzmocnieniem, który umożliwia agentom językowym wykonywanie złożonych, wieloetapowych zadań przy zachowaniu niemal stałego zużycia pamięci.
MEM1 w działaniu: nowa perspektywa konsolidacji pamięci
Zamiast przechowywać pełną historię interakcji, MEM1 aktualizuje kompaktowy stan wewnętrzny na każdym etapie, łącząc nowe informacje z pamięcią i odrzucając zbędne szczegóły. To ujednolicone podejście do rozumowania i zarządzania pamięcią znacząco zwiększa efektywność i wydajność, eliminując potrzebę dodatkowych modułów. MEM1 został przetestowany w różnorodnych zadaniach, w tym w odpowiadaniu na pytania dotyczące stron internetowych (web QA) oraz w symulacjach zakupów online. Wykazały one do 3,5-krotnie lepszą wydajność i 3,7-krotnie mniejsze zużycie pamięci w porównaniu do większych modeli, jednocześnie wykazując zdolność do generalizacji na dłuższe, nieznane sekwencje zadań.
Kluczem do sukcesu MEM1 jest połączenie przycinania pamięci z iteracyjnym rozumowaniem. Na każdym kroku agent przetwarza nowe informacje i integruje je z wcześniejszą wiedzą, tworząc skonsolidowany stan wewnętrzny. Następnie przycina poprzedni kontekst, aby zachować efektywność pamięci. Ten strukturalny sposób aktualizacji pamięci przypomina ludzki proces rozwiązywania problemów, gdzie kluczowe informacje są priorytetem, a reszta jest odrzucana.
Zespół wykorzystał uczenie ze wzmocnieniem do trenowania agenta, aby zachowywał tylko istotne dane, stosując strategię maskowania podczas optymalizacji, by zapewnić precyzyjne aktualizacje polityki. Aby dokładniej przetestować długoterminowe rozumowanie, stworzono również zadania QA z wieloma celami, bazując na istniejących datasetach.
Testy wydajności: MEM1 na tle gigantów
Badanie oceniło zdolność MEM1 do radzenia sobie ze złożonymi zadaniami wieloetapowymi przy utrzymaniu niemal stałego zużycia pamięci. Trenowany przy użyciu uczenia ze wzmocnieniem na modelu bazowym Qwen2.5-7B, MEM1 był testowany w środowiskach odpowiadania na pytania z generowaniem wspomaganym wyszukiwaniem oraz w nawigacji internetowej. Porównano go z kilkoma bazowymi modelami, używając zarówno metryk dokładności, jak i efektywności. Wyniki pokazały, że MEM1 przewyższa inne modele w zadaniach długoterminowych, utrzymując wysoką wydajność nawet wraz ze wzrostem złożoności zadań. Wykorzystuje mniej tokenów, działa szybciej i skaluje się wydajniej. Mimo że jest mniejszy, MEM1 przewyższył nawet większe modele, takie jak Qwen2.5-14B-Instruct i GPT-4o, w wymagających scenariuszach.
Wnioski i perspektywy na przyszłość
MEM1 stanowi znaczący krok naprzód w dziedzinie zarządzania pamięcią przez agentów językowych. W przeciwieństwie do tradycyjnych metod, które prowadzą do 'pęcznienia’ pamięci i spadku wydajności, framework ten utrzymuje kompaktowy stan wewnętrzny poprzez łączenie nowych danych z pamięcią i odrzucanie niepotrzebnych informacji. Choć MEM1 wykazuje znakomite wyniki w zadaniach wymagających jasnych i wiarygodnych sygnałów nagrody, jak np. w odpowiadaniu na pytania czy nawigacji internetowej, jego obecne założenia dotyczące dostępności tych sygnałów stanowią ograniczenie. Wiele rzeczywistych zadań cechuje się niepewnymi lub opóźnionymi nagrodami.
Przyszłe prace nad MEM1 skupią się na adaptacji frameworku do zadań o otwartym końcu, z nieokreślonymi lub opóźnionymi sygnałami nagrody. To rozszerzy możliwości zastosowania MEM1 w szerszych, bardziej praktycznych scenariuszach, zbliżając sztuczną inteligencję do bardziej ludzkiego sposobu myślenia i rozwiązywania problemów.
