Modelowanie świata w AI: nowa era symbolicznego wnioskowania z PoE-World
Współczesne systemy sztucznej inteligencji, choć imponujące w swoich możliwościach, nadal borykają się z fundamentalnym problemem: jak zrozumieć świat w sposób zbliżony do ludzkiego? Modele oparte na sieciach neuronowych, takie jak Dreamer, wymagają gigantycznych ilości danych, aby nauczyć się efektywnie działać – znacznie więcej, niż potrzebuje człowiek. To ograniczenie stawia pod znakiem zapytania ich skalowalność i adaptacyjność w złożonych, dynamicznych środowiskach.
Alternatywne podejścia, wykorzystujące syntezę programów za pomocą dużych modeli językowych (LLM), obiecują większą efektywność danych i lepszą generalizację z ograniczonego wejścia. Niestety, ich zastosowanie dotychczas ograniczało się głównie do prostszych domen, takich jak tekst czy światy siatkowe, ponieważ skalowanie do skomplikowanych środowisk, gdzie generowanie obszernych programów jest wyzwaniem, pozostawało problematyczne.
Ograniczenia istniejących modeli programowych
Najnowsze badania, wykorzystujące programy do reprezentowania modeli świata, często bazują na LLM do syntezy funkcji przejścia napisanych w Pythonie. Metody takie jak WorldCoder czy CodeWorldModels generują jeden, duży program. To rozwiązanie, choć proste w koncepcji, ogranicza ich skalowalność w złożonych środowiskach oraz zdolność do radzenia sobie z niepewnością i częściową obserwowalnością. Niektóre badania skupiają się na wysokopoziomowych modelach symbolicznych dla planowania robotycznego, integrując dane wizualne z abstrakcyjnym rozumowaniem.
Wcześniejsze próby obejmowały użycie ograniczonych, specyficznych dla dziedziny języków, dostosowanych do konkretnych benchmarków, lub wykorzystanie koncepcyjnie zbliżonych struktur, takich jak grafy czynnikowe w sieciach schematów. Całkowicie teoretyczne modele, takie jak AIXI, również badają modelowanie świata za pomocą maszyn Turinga i reprezentacji opartych na historii.
PoE-World: modułowe i probabilistyczne modele świata
Przełomowe podejście proponują naukowcy z Cornell, Cambridge, The Alan Turing Institute i Dalhousie University. Wprowadzają oni PoE-World – metodę uczenia symbolicznych modeli świata poprzez kombinację wielu małych, syntezowanych przez LLM programów. Każdy z tych programów, zwanych ekspertami programowymi, odpowiada za uchwycenie konkretnej reguły lub zachowania środowiska.
Zamiast tworzyć jeden, monolityczny program, PoE-World buduje modułową, probabilistyczną strukturę, która może uczyć się na podstawie krótkich demonstracji. Taka konfiguracja umożliwia generalizację do nowych sytuacji, pozwalając agentom efektywnie planować nawet w tak złożonych grach jak Pong i Montezuma’s Revenge. Co istotne, system ten nie modeluje surowych danych pikseli, lecz uczy się z symbolicznych obserwacji obiektów i kładzie nacisk na dokładne modelowanie, zamiast na eksplorację, co prowadzi do efektywnego podejmowania decyzji.
Architektura i mechanizm uczenia PoE-World
PoE-World modeluje środowisko jako kombinację małych, interpretowalnych programów Pythona, czyli ekspertów programowych, z których każdy odpowiada za określoną regułę lub zachowanie. Eksperci ci są ważeni i łączone w celu przewidywania przyszłych stanów na podstawie przeszłych obserwacji i działań. Traktując cechy jako warunkowo niezależne i ucząc się z pełnej historii, model pozostaje modułowy i skalowalny. Twarde ograniczenia doprecyzowują przewidywania, a eksperci są aktualizowani lub usuwani w miarę zbierania nowych danych.
Model wspiera planowanie i uczenie przez wzmacnianie poprzez symulowanie prawdopodobnych przyszłych wyników, co umożliwia efektywne podejmowanie decyzji. Programy są syntetyzowane za pomocą LLM i interpretowane probabilistycznie, a wagi ekspertów są optymalizowane poprzez spadek gradientu.
Empiryczna ocena w grach Atari
Badania empiryczne przeprowadzone na grach Atari, takich jak Pong i Montezuma’s Revenge, w tym ich trudniejszych, zmodyfikowanych wersjach, potwierdzają skuteczność agenta PoE-World + Planner. Wykorzystując minimalną ilość danych demonstracyjnych, metoda ta przewyższa konkurencyjne rozwiązania, takie jak PPO, ReAct i WorldCoder, zwłaszcza w scenariuszach z ograniczoną ilością danych.
PoE-World demonstruje silną zdolność do generalizacji, dokładnie modelując dynamikę gry, nawet w zmienionych środowiskach, bez potrzeby nowych demonstracji. Jest to również jedyna metoda, która konsekwentnie osiąga pozytywny wynik w Montezuma’s Revenge. Co więcej, wstępne trenowanie polityk w środowisku symulowanym przez PoE-World przyspiesza uczenie w rzeczywistym świecie. W przeciwieństwie do WorldCodera, którego modele bywają ograniczone i niedokładne, PoE-World generuje bardziej szczegółowe i uwzględniające ograniczenia reprezentacje, co przekłada się na lepsze planowanie i bardziej realistyczne zachowanie w grze.
Symboliczne, modułowe programy dla skalowalnego planowania AI
Zrozumienie działania świata jest kluczowe dla budowania adaptacyjnych agentów AI. Niestety, tradycyjne modele głębokiego uczenia wymagają dużych zbiorów danych i mają trudności z elastycznym aktualizowaniem się przy ograniczonej ilości danych wejściowych. Zainspirowani tym, jak ludzie i systemy symboliczne rekomponują wiedzę, naukowcy proponują PoE-World. Ta metoda wykorzystuje duże modele językowe do syntezy modułowych, programowych „ekspertów”, którzy reprezentują różne części świata. Eksperci ci łączą się kompozycyjnie, tworząc symboliczny, interpretowalny model świata, który wspiera silną generalizację z minimalnej ilości danych.
Testowane w grach Atari, takich jak Pong i Montezuma’s Revenge, to podejście demonstruje efektywne planowanie i wydajność, nawet w nieznanych scenariuszach. Kod i dema są publicznie dostępne, co ułatwia dalsze badania i rozwój w tej obiecującej dziedzinie.