Agenci AI

MIRIX: Przełom w pamięci dla agentów AI – ku cyfrowej świadomości

Większość istniejących agentów opartych na dużych modelach językowych (LLM) działa na zasadzie „bezstanowej”, co oznacza, że ich zdolność do utrzymywania kontekstu jest ograniczona do pojedynczego zapytania użytkownika. Taka architektura znacząco ogranicza ich użyteczność w rzeczywistych zastosowaniach, gdzie spójność i personalizacja odgrywają kluczową rolę. Brak trwałej pamięci uniemożliwia budowanie głębszych relacji z użytkownikiem i efektywne reagowanie na zmieniające się potrzeby.

Odpowiedzią na te wyzwania jest MIRIX – modułowy system pamięci dla wieloagentowych systemów AI, opracowany przez MIRIX AI. Jego innowacyjność polega na odejściu od prostych, tekstowych systemów pamięci na rzecz zintegrowanej architektury, która obejmuje różne modalności, w tym dane wizualne, oraz relies on zharmonizowaną współpracę wielu agentów zarządzających pamięcią. To kluczowa zmiana, która ma na celu umożliwienie agentom AI gromadzenia, przypominania sobie i wnioskowania na podstawie informacji specyficznych dla użytkownika w długim horyzoncie czasowym.

Architektura i kompozycja pamięci

MIRIX wyróżnia się sześcioma wyspecjalizowanymi, kompozycyjnymi komponentami pamięci, z których każdy jest nadzorowany przez dedykowanego Menedżera Pamięci:

  • Pamięć Rdzeniowa: Przechowuje trwałe informacje o agencie i użytkowniku, podzielone na sekcje 'persona’ (profil agenta, jego ton, zachowanie) oraz 'human’ (fakty o użytkowniku, takie jak imię, preferencje, relacje).
  • Pamięć Epizodyczna: Rejestruje zdarzenia i interakcje użytkownika opatrzone znacznikami czasu, z atrybutami takimi jak typ zdarzenia, podsumowanie, szczegóły, aktorzy i sygnatura czasowa.
  • Pamięć Semantyczna: Koduje abstrakcyjne koncepcje, grafy wiedzy i nazwane encje, z wpisami uporządkowanymi według typu, podsumowania, szczegółów i źródła.
  • Pamięć Proceduralna: Zawiera ustrukturyzowane przepływy pracy i sekwencje zadań, często sformatowane w JSON, co ułatwia manipulację.
  • Pamięć Zasobów: Utrzymuje referencje do zewnętrznych dokumentów, zdjęć i plików audio, z zapisem tytułu, podsumowania, typu zasobu i treści lub linku.
  • Skarbiec Wiedzy: Zabezpiecza dosłowne fakty i wrażliwe informacje, takie jak dane uwierzytelniające, kontakty i klucze API, z rygorystyczną kontrolą dostępu.

Działania tych sześciu menedżerów są koordynowane przez Meta Menedżera Pamięci, który odpowiada za inteligentne routowanie wiadomości, hierarchiczne przechowywanie danych i operacje odzyskiwania specyficzne dla danego typu pamięci. W ramach tej architektury współpracują również dodatkowi agenci, pełniący funkcje takie jak chat czy interfejs.

Aktywne wyszukiwanie i potok interakcji

Kluczową innowacją MIRIX jest mechanizm Aktywnego Wyszukiwania. Po wprowadzeniu danych przez użytkownika, system autonomicznie identyfikuje temat, a następnie pobiera odpowiednie wpisy z wszystkich sześciu komponentów pamięci. Ostatecznie, pobrane dane są tagowane w celu kontekstowego wstrzyknięcia do generowanego komunikatu systemowego. Ten proces zmniejsza poleganie na przestarzałej wiedzy modeli parametrycznych i znacznie wzmacnia podstawy odpowiedzi.

System oferuje wiele strategii wyszukiwania, w tym dopasowanie osadzeń (embedding_match), bm25_match i dopasowanie ciągu znaków (string_match), co zapewnia dokładny i kontekstowo świadomy dostęp do pamięci. Architektura umożliwia również dalsze rozszerzanie narzędzi wyszukiwania.

Implementacja systemu i zastosowanie

MIRIX jest wdrażany jako wieloplatformowa aplikacja asystenta, stworzona w oparciu o React-Electron (dla interfejsu użytkownika) i Uvicorn (dla API backendu). Asystent monitoruje aktywność ekranu, przechwytując zrzuty ekranu co 1,5 sekundy. Tylko nie-redundantne zrzuty są zachowywane, a aktualizacje pamięci są wyzwalane partiami po zebraniu 20 unikalnych zrzutów ekranu (czyli mniej więcej raz na minutę). Przesyłanie danych do API Gemini odbywa się strumieniowo, co umożliwia efektywne przetwarzanie danych wizualnych i zapewnia opóźnienie w aktualizacji pamięci z danych wizualnych poniżej 5 sekund.

Użytkownicy wchodzą w interakcję za pośrednictwem interfejsu czatu, który dynamicznie czerpie z komponentów pamięci agenta, generując spersonalizowane odpowiedzi uwzględniające kontekst. Pamięć semantyczna i proceduralna są wizualizowane jako rozwijalne drzewa lub listy, zapewniając transparentność i umożliwiając użytkownikom audytowanie i sprawdzanie, co agent „pamięta” na ich temat.

Ocena na benchmarkach multimodalnych i konwersacyjnych

MIRIX został poddany walidacji w ramach dwóch rygorystycznych zadań:

  1. ScreenshotVQA: Benchmark odpowiedzi na pytania wizualne, wymagający trwałej, długoterminowej pamięci w oparciu o zrzuty ekranu o wysokiej rozdzielczości. MIRIX przewyższa konkurencyjne modele RAG (Retrieval-Augmented Generation), w tym SigLIP i Gemini, o 35% w dokładności ocenianej przez LLM-as-a-Judge, jednocześnie zmniejszając potrzeby magazynowania danych o 99,9% w porównaniu z metodami opartymi wyłącznie na tekście.
  2. LOCOMO: Tekstowy benchmark oceniający pamięć konwersacyjną w długich dialogach. MIRIX osiąga średnią dokładność na poziomie 85,38%, przewyższając silne systemy open-source, takie jak LangMem i Mem0, o ponad 8 punktów, i zbliżając się do górnych granic sekwencji z pełnym kontekstem.

Modułowa konstrukcja umożliwia wysoką wydajność zarówno w dziedzinach wnioskowania multimodalnego, jak i wyłącznie tekstowego.

Przypadki użycia: Urządzenia noszone i rynek pamięci

MIRIX został zaprojektowany z myślą o rozszerzalności, wspierając lekkie urządzenia AI noszone na ciele, w tym inteligentne okulary i przypinki, dzięki swojej wydajnej, modułowej architekturze. Hybrydowe wdrożenie pozwala zarówno na obsługę pamięci na urządzeniu, jak i w chmurze. Praktyczne zastosowania obejmują podsumowywanie spotkań w czasie rzeczywistym, dokładne przypominanie lokalizacji i kontekstu, a także dynamiczne modelowanie nawyków użytkownika.

Wizjonerską cechą MIRIX jest Memory Marketplace: zdecentralizowany ekosystem umożliwiający bezpieczne współdzielenie pamięci, jej monetyzację i współpracę w personalizacji AI między użytkownikami. Rynek ten został zaprojektowany z myślą o szczegółowej kontroli prywatności, kompleksowym szyfrowaniu i zdecentralizowanym przechowywaniu danych, co ma zapewnić suwerenność danych i samowłasność użytkownika.

Wnioski

MIRIX stanowi znaczący krok w kierunku wyposażenia agentów opartych na LLM w pamięć zbliżoną do ludzkiej. Jego ustrukturyzowana, wieloagentowa architektura kompozycyjna umożliwia solidną abstrakcję pamięci, wsparcie multimodalne i wnioskowanie w czasie rzeczywistym, oparte na kontekście. Dzięki empirycznym osiągnięciom w wymagających benchmarkach i dostępnemu, wieloplatformowemu interfejsowi aplikacji, MIRIX ustanawia nowy standard dla systemów AI wspomaganych pamięcią.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *