Inżynieria kontekstu kluczem do efektywności agentów AI
Rozwój efektywnych agentów sztucznej inteligencji wykracza poza sam wybór potężnego modelu językowego. Jak odkrył zespół odpowiedzialny za projekt Manus, kluczowe znaczenie ma sposób projektowania i zarządzania „kontekstem” – danymi, które sztuczna inteligencja przetwarza, aby podejmować decyzje. Ta „inżynieria kontekstu” bezpośrednio wpływa na szybkość, koszt, niezawodność i inteligencję agenta.
Początkowo oczywisty wydawał się wybór: wykorzystanie możliwości uczenia się w kontekście modeli o wysokiej wydajności, zamiast powolnego, iteracyjnego dostrajania. Takie podejście miało przyspieszyć wprowadzanie zmian z tygodni do godzin, umożliwiając szybkie dostosowania produktu do ewoluujących możliwości AI. Jednak ta ścieżka okazała się znacznie bardziej złożona, prowadząc do wielokrotnych przebudów struktury, co Manus określa mianem „stochastycznego spadku w kierunku optymalnego rozwiązania” – procesu eksperymentalnych poszukiwań.
Maksymalizacja wydajności poprzez KV-cache
KV-cache jest kluczowym elementem wpływającym na wydajność agentów, bezpośrednio oddziałując na opóźnienia i koszty. Agenci nieustannie dodają działania i obserwacje do swojego kontekstu, co powoduje, że dane wejściowe stają się znacznie dłuższe niż wyjściowe. KV-cache, poprzez ponowne wykorzystanie identycznych prefiksów kontekstu, drastycznie skraca czas przetwarzania i obniża koszty (na przykład 10-krotnie w przypadku modelu Claude Sonnet).
Aby zmaksymalizować trafienia w KV-cache, należy zadbać o stabilność prefiksów promptów, ponieważ nawet pojedyncza zmiana tokena na początku promptu systemowego może unieważnić pamięć podręczną. Należy unikać dynamicznych elementów, takich jak precyzyjne znaczniki czasu. Kontekst powinien być wyłącznie dodawany (append-only), co oznacza, że nie wolno modyfikować wcześniejszych działań ani obserwacji. Warto również zapewnić deterministyczną serializację danych (np. JSON), aby zapobiec subtelnym błędom w pamięci podręcznej. Niektóre środowiska pracy wymagają ręcznego wstawiania punktów przerwania pamięci podręcznej, najlepiej po prommptie systemowym.
Maskowanie, nie usuwanie: Kontrola przestrzeni działań
W miarę jak agenci zyskują coraz więcej narzędzi, ich przestrzeń działań staje się złożona, co paradoksalnie może „ogłupiać” agenta, utrudniając mu trafne wybory. Choć dynamiczne ładowanie narzędzi mogłoby wydawać się intuicyjne, unieważnia ono KV-cache i wprowadza model w błąd, jeśli wcześniejszy kontekst odnosi się do niezdefiniowanych narzędzi. Zamiast tego Manus wykorzystuje maszynę stanów świadomą kontekstu do zarządzania dostępnością narzędzi poprzez maskowanie tokenów podczas dekodowania. Zapobiega to wyborowi przez model niedostępnych lub nieodpowiednich działań bez zmiany podstawowych definicji narzędzi, utrzymując stabilność kontekstu i skupienie agenta.
System plików jako nieograniczony kontekst
Nawet przy dużych oknach kontekstowych (powyżej 128 tys. tokenów), obserwacje agentów w świecie rzeczywistym (takie jak strony internetowe czy pliki PDF) mogą łatwo przekroczyć limity, pogorszyć wydajność i generować wysokie koszty. Nieodwracalna kompresja niesie ryzyko utraty kluczowych informacji potrzebnych do przyszłych kroków. Manus traktuje system plików jako ostateczny, nieograniczony kontekst. Agent uczy się czytać i zapisywać do plików na żądanie, wykorzystując system plików jako zewnętrzną, ustrukturyzowaną pamięć. Strategie kompresji są zawsze zaprojektowane tak, aby można je było odtworzyć (np. zachowanie adresu URL przy pominięciu zawartości strony), co efektywnie skraca długość kontekstu bez trwałej utraty danych.
Recytacja dla utrzymywania uwagi
W złożonych, wieloetapowych zadaniach agenci mogą stracić skupienie lub zapomnieć o długoterminowych celach. Manus rozwiązuje ten problem, każąc agentowi nieustannie modyfikować plik todo.md. Poprzez recytowanie swoich celów i postępów w kontekście, uwaga modelu jest kierowana na globalny plan, co minimalizuje problem „zagubienia w środku” i redukuje niedostosowanie celów. Wykorzystuje to język naturalny do kierowania skupieniem sztucznej inteligencji bez zmian architektonicznych.
Błędy są częścią procesu
Agenci będą popełniać błędy – halucynować, napotykać na problemy, źle się zachowywać. Naturalnym odruchem jest usuwanie tych niepowodzeń. Jednak Manus odkrył, że pozostawienie nieudanych działań i obserwacji w kontekście niejawnie aktualizuje wewnętrzne przekonania modelu. Widząc własne błędy, agent uczy się i zmniejsza ryzyko powtórzenia tego samego błędu, co sprawia, że odzyskiwanie błędów jest kluczowym wskaźnikiem prawdziwego zachowania agentowego.
Różnorodność zamiast kopiowania
Choć technika uczenia się z przykładów „few-shot prompting” jest potężna dla dużych modeli językowych (LLM), w przypadku agentów może przynieść odwrotny skutek, prowadząc do mimikry i suboptymalnych, powtarzalnych zachowań. Gdy kontekst jest zbyt jednolity, z podobnymi parami akcji-obserwacji, agent może wpaść w rutynę, co prowadzi do dryfu lub halucynacji. Rozwiązaniem jest kontrolowana różnorodność. Manus wprowadza niewielkie wariacje w szablonach serializacji, frazowaniu lub formatowaniu w obrębie kontekstu. Ten „szum” pomaga przełamać powtarzalne wzorce i przenosi uwagę modelu, zapobiegając utknięciu w sztywnym naśladowaniu przeszłych działań.
Podsumowując, inżynieria kontekstu to bardzo nowa, ale kluczowa dziedzina dla agentów AI. Wykracza ona poza surową moc modelu, dyktując, jak agent zarządza pamięcią, wchodzi w interakcje ze środowiskiem i uczy się z informacji zwrotnych. Opanowanie tych zasad jest niezbędne do budowania solidnych, skalowalnych i inteligentnych agentów AI.
