LLMR & DRozumowanie

Modele językowe budują wewnętrzne mapy: Nowe światło na hipotezę modelu świata w AI

W środowisku sztucznej inteligencji, gdzie koncepcje emergentnych zdolności są często dyskutowane i kwestionowane, hipoteza modelu świata dla dużych modeli językowych (LLM) zyskuje na znaczeniu. Najnowsze badanie przeprowadzone przez naukowców z Uniwersytetu Kopenhaskiego, szczegółowo przedstawione na ICLR 2025, dostarcza mocnych dowodów na to, że LLM-y mogą wykształcać skomplikowane wewnętrzne reprezentacje środowiska, nawet wówczas, gdy są trenowane wyłącznie na sekwencjach ruchów.

Od papugowania do pojmowania struktury

W przeszłości, zwłaszcza w początkowych fazach rozwoju LLM-ów, powszechne było przekonanie, że modele te są niewiele więcej niż „stochastycznymi papugami”, zdolnymi jedynie do naśladowania wzorców językowych bez prawdziwego zrozumienia głębszych zależności. Jednakże, już wczesne eksperymenty z GPT-2 i grą Othello sugerowały, że transformery mogą wyłapywać struktury i zasady z pozornie prostych danych, podważając tym samym dominujący paradygmat.

Hipoteza modelu świata Othello zakłada, że modele językowe, wytrenowane wyłącznie na sekwencjach ruchów, są w stanie stworzyć wewnętrzny model gry, zawierający układ planszy i mechanikę gry, nawet bez bezpośrednich instrukcji czy wizualnej reprezentacji planszy. W teorii, modele te powinny być w stanie przewidywać prawidłowe następne ruchy, bazując wyłącznie na tej wewnętrznej mapie.

Nowe metody, nowe perspektywy

Aby pogłębić to zrozumienie, zespół z Kopenhagi wytrenował siedem różnych modeli językowych, takich jak GPT-2, T5, Bart, Flan-T5, Mistral, LLaMA-2 i Qwen2.5, w celu przewidywania następnych ruchów w grach Othello. Wykorzystano dwa zestawy danych: jeden zawierający około 140 000 rzeczywistych partii, a drugi – miliony syntetycznych. Kluczową innowacją było zastosowanie narzędzi do „wyrównywania reprezentacji”, które umożliwiły bezpośrednie porównanie wewnętrznych „map” planszy Othello, które tworzyły poszczególne modele. To podejście pozwoliło przezwyciężyć ograniczenia poprzednich badań, takich jak OthelloGPT.

Wyniki są jednoznaczne: modele nie tylko nauczyły się grać w Othello, ale także rozwinęły wewnętrzne reprezentacje przestrzennej struktury planszy, które wykazywały niezwykłe podobieństwa. Niezależnie od architektury, sposób, w jaki modele „widziały” planszę, korelował z tym, co badacze określili jako „wysoką zgodność”. Co ciekawe, wydajność modeli była zależna od architektury i wielkości zbioru danych. W przypadku rzeczywistych danych, większość modeli osiągnęła wskaźnik błędów poniżej sześciu procent przy pełnym zbiorze danych, natomiast w przypadku danych syntetycznych, wskaźnik błędów spadł drastycznie wraz ze wzrostem zbioru danych – z około 50 procent przy 2 000 gier do mniej niż 0,1 procenta przy kompletnym zbiorze.

Interesujące jest również to, że modele wstępnie trenowane na danych językowych, takie jak Flan-T5 i LLaMA-2, nie zawsze przewyższały modele bez wcześniejszego treningu językowego. To wskazuje, że zdolność do budowania modelu świata planszy Othello na podstawie sekwencji ruchów nie jest bezpośrednio zależna od wcześniejszej wiedzy językowej.

Implikacje dla badań nad AI

Powyższe badanie podważa fundamentalne założenie części krytyków LLM-ów, twierdzących, że systemy monomodalne – trenowane wyłącznie na jednym typie danych, np. tekście – nie są w stanie rozwiązać problemów wymagających zrozumienia informacji wizualnych lub przestrzennych. Fakt, że modele te potrafią odtworzyć planszę Othello z surowych sekwencji ruchów, demonstruje zaskakującą zdolność do abstrakcji. Stanowi to istotny krok w kierunku rozwiązania problemu ugruntowania symboli (Symbol Grounding Problem) w AI, gdzie abstrakcyjne symbole, takie jak „C3” w Othello, muszą być powiązane z ich rzeczywistym znaczeniem. W tym przypadku modele nauczyły się kojarzyć symbole takie jak „C3” z konkretnymi lokalizacjami na planszy i ich przestrzennymi relacjami, zamiast traktować je jako generyczne tokeny. Jako jeden z autorów badania, Yifei Yuan wspólnie z Andersem Søgaardem, twierdzą, że ich praca dostarcza znacznie mocniejszych dowodów na poparcie hipotezy modelu świata Othello niż wcześniejsze badania, co otwiera nowe perspektywy w rozwoju sztucznej inteligencji i jej zdolności do rozumienia złożonych zależności w świecie realnym.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *