Agenci AILLM

Meta DreamGym: przełom w uczeniu wzmocnionym dla agentów językowych

Uczenie wzmocnione (RL) dla dużych modeli językowych (LLM) prezentuje się obiecująco w teorii, jednak w praktyce napotyka na znaczące przeszkody. Wysokie koszty interakcji, skomplikowana infrastruktura oraz szum w sygnale nagrody skutecznie hamują skalowanie tych procesów. Standardowe podejścia wymagają dziesiątek tysięcy interakcji w środowiskach takich jak WebShop czy ALFWorld, które są nie tylko czasochłonne, ale także niestabilne i trudne do zresetowania.

Meta AI, widząc to wąskie gardło, opracowała DreamGym – innowacyjny framework, który przekształca problem środowiska w problem modelowania. Zamiast bezpośredniego uruchamiania RL w środowiskach rzeczywistych, DreamGym uczy się modelu doświadczenia opartego na rozumowaniu, który symuluje je w całości tekstowo.

Dlaczego uczenie wzmocnione w środowiskach rzeczywistych nie skaluje się dla agentów?

Obecne metody uczenia wzmocnionego dla agentów borykają się z czterema powiązanymi problemami. Przeprowadzanie eksperymentów w środowiskach rzeczywistych jest kosztowne, różnorodność zadań ograniczona, sygnały nagrody niestabilne, a infrastruktura skomplikowana. Środowiska internetowe często się zmieniają, nagrody zależą od często zawodnego scrapingu danych, a wiele działań jest nieodwracalnych. Mechanizmy resetowania i kontrola epizodów są również trudne do zaimplementowania, co sprawia, że zadania o długim horyzoncie stają się podatne na szum i nieefektywne pod względem próbkowania.

Istniejące benchmarki dzielą się na dwie grupy. WebShop i ALFWorld są gotowe do uczenia wzmocnionego, ale drogie, ponieważ nadal wymagają około 80 tysięcy rzeczywistych interakcji, aby osiągnąć bazowe wyniki za pomocą algorytmów takich jak PPO czy GRPO. Z kolei WebArena Lite nie jest w ogóle gotowa do uczenia wzmocnionego, ponieważ resetowanie i automatyczne sprawdzanie nagród są zawodne, co czyni online RL w tym środowisku praktycznie niewykonalnym.

DreamGym jako symulator oparty na rozumowaniu

DreamGym zbudowany jest wokół trzech głównych komponentów: modelu doświadczenia opartego na rozumowaniu, bufora powtórzeń doświadczeń oraz adaptacyjnego generatora zadań z kurikulum. Razem tworzą one syntetyczny proces decyzyjny Markova, w którym środowisko istnieje wyłącznie w postaci tekstowej.

Model doświadczenia (Mexp) działa w abstrakcyjnej, tekstowej przestrzeni stanów. Stany są zwięzłymi opisami kluczowych elementów zadania, na przykład oczyszczonych elementów strony zamiast surowego kodu HTML. Na każdym kroku agent dostarcza bieżący stan, akcję, instrukcję zadania oraz historię interakcji. System pobiera k najbardziej podobnych przejść z bufora powtórzeń, a następnie wykorzystuje rozumowanie „łańcucha myśli” (chain of thought reasoning) do wygenerowania ścieżki rozumowania, następnego stanu i nagrody.

Mexp można postrzegać jako model świata LLM dla zadań sieciowych i narzędziowych, ale zdefiniowany wyłącznie w tekście. Jest on trenowany za pomocą nadzorowanego dostrajania na danych offline, z wspólnym celem generowania zarówno ścieżki rozumowania, jak i następnego stanu warunkowanego tą ścieżką. To zmusza model do kodowania struktury przyczynowej, a nie tylko lokalnych statystyk tekstowych.

Bufor powtórzeń jako pamięć uziemiająca

Bufor powtórzeń doświadczeń inicjowany jest danymi z rzeczywistych środowisk offline, takich jak WebShop, ALFWorld i WebArena Lite. Podczas gdy DreamGym trenuje polityki w syntetycznym środowisku, zapisuje nowe trajektorie z powrotem do tego bufora. Każdy krok predykcji w Mexp wykorzystuje koder do pobrania małego zestawu podobnych przejść z tej pamięci i warunkowaniem na nich podczas generowania rozumowania i następnych stanów.

To pobieranie działa jako uziemienie, utrzymując syntetyczne przejścia blisko empirycznego rozkładu danych i redukując halucynacje w długich seriach. Zespół badawczy wykazał, że usunięcie historii lub pobierania pogarsza spójność, informatywność i faktyczność generowanych stanów, ocenianych przez zewnętrznego ewaluatora, a także obniża wskaźniki sukcesu na WebShop i WebArena Lite.

Automatyczne kurikulum z entropii nagrody

Generator zadań z kurikulum wykorzystuje ten sam rdzeń co model doświadczenia. Wybiera zadania, których wyniki w ramach obecnej polityki mają wysoką wariancję nagrody, co odpowiada zadaniom o średnim poziomie trudności, które agent czasem rozwiązuje, a czasem nie. Dla każdego takiego zadania model generuje wariacje, które zachowują typy akcji, ale zmieniają ograniczenia, cele lub kontekst.

Heurystyka selekcji opiera się na entropii nagrody obliczonej na partiach serii dla każdego zadania. Preferowane są zadania z niezerową wariancją oraz ze zrównoważonymi sukcesami i porażkami. Badania wykazały, że wyłączenie tego adaptacyjnego kurikulum powoduje spadek wydajności na WebShop i WebArena Lite o około 6 punktów procentowych i prowadzi do wczesnych plateau, gdy bufor powtórzeń nasyca się łatwymi, niskoentropijnymi trajektoriami.

Uczenie wzmocnione w DreamGym i jego gwarancje teoretyczne

Wewnątrz DreamGym polityka używa standardowych algorytmów uczenia wzmocnionego. Zespół badawczy oceniał Proximal Policy Optimization (PPO) i Group Relative Policy Optimization (GRPO). Wykonanie przeplotów polega na alternowaniu wyboru akcji przez politykę i syntezowanie następnych stanów oraz nagród przez model doświadczenia. Z punktu widzenia kodu uczenia wzmocnionego jest to po prostu kolejny interfejs środowiska.

Zespół badawczy opracował również ograniczenie poprawy w stylu regionu zaufania, które łączy wydajność polityki w syntetycznym środowisku MDP z wydajnością w środowisku rzeczywistym. Ograniczenie to zawiera terminy błędu, które zależą od błędu przewidywania nagrody i rozbieżności między rzeczywistymi a syntetycznymi rozkładami przejść. Gdy te błędy maleją, poprawa w DreamGym implikuje poprawę w podstawowym zadaniu rzeczywistym.

Wyniki eksperymentalne: WebShop, ALFWorld i WebArena Lite

DreamGym został przetestowany z agentami opartymi na modelach Llama i Qwen w środowiskach WebShop, ALFWorld i WebArena Lite. Wyniki dzielą się na trzy kategorie:

  1. W środowiskach gotowych do uczenia wzmocnionego, ale kosztownych (WebShop i ALFWorld), agenci trenowani za pomocą PPO lub GRPO w DreamGym, wykorzystujący wyłącznie syntetyczne przejścia, dorównali wydajności bazowych algorytmów PPO i GRPO, które wykorzystywały około 80 tysięcy interakcji w środowisku rzeczywistym. To pokazuje, że synteza doświadczenia oparta na rozumowaniu może dostarczyć wystarczający sygnał do stabilnej poprawy polityki.
  2. W środowiskach niegotowych do uczenia wzmocnionego, takich jak WebArena Lite, DreamGym umożliwił trening RL, który w przeciwnym razie byłby niepraktyczny. Framework osiągnął ponad 30-procentową poprawę wskaźnika sukcesu w porównaniu ze wszystkimi bazowymi metodami, włączając w to nadzorowane dostrajanie i bezpośrednie klonowanie zachowań.
  3. W transferze „z symulacji do rzeczywistości” (sim to real), konfiguracja DreamGym-S2R najpierw trenuje politykę w całości w syntetycznym środowisku, a następnie dostraja ją za pomocą niewielkiej liczby rzeczywistych interakcji. To ustawienie przyniosło ponad 40-procentowy zysk w porównaniu z treningiem od podstaw w środowisku rzeczywistym, zużywając mniej niż 10 procent danych rzeczywistych i obniżając całkowity koszt treningu do około jednej trzeciej lub jednej piątej kosztów metod bazowych.

Wnioski i perspektywy

DreamGym stanowi istotny krok w kierunku praktycznego uczenia wzmocnionego dla agentów LLM, ponieważ przekształca środowisko w model doświadczenia oparty na rozumowaniu, ugruntowany przez bufor powtórzeń doświadczeń i kurikulum sterowane entropią nagrody, zamiast na kruchej architekturze przeglądarkowej. Zgłoszone zyski na WebArena Lite, WebShop i ALFWorld z PPO i GRPO sugerują, że syntetyczne doświadczenie w połączeniu z adaptacją Sim to Real może stać się standardowym wzorcem dla treningu agentów na dużą skalę. Co istotne, DreamGym sprawia, że model doświadczenia, a nie polityka, staje się główną dźwignią skalowania agentów uczenia wzmocnionego.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *