Koniec semantycznego chaosu: badacze definiują „modele świata” i wykluczają Sorę
W debacie nad rozwojem sztucznej inteligencji termin „model świata” (ang. world model) stał się w ostatnim czasie jednym z najbardziej nadużywanych pojęć. Działy marketingowe korporacji technologicznych chętnie przypisują tę łatkę każdemu systemowi potrafiącemu wygenerować realistycznie wyglądający film. Międzynarodowy zespół badaczy z Uniwersytetu Pekińskiego, Uniwersytetu Tsinghua oraz Narodowego Uniwersytetu Singapuru postanowił ukrócić tę terminologiczną samowolę. W swojej najnowszej pracy naukowej oraz towarzyszącym jej projekcie OpenWorldLib autorzy, wprowadzają precyzyjne ramy teoretyczne, które oddzielają rzeczywiste modelowanie rzeczywistości od zwykłej, pasywnej syntezy pikseli.
Sora to nie model świata: krytyka pasywnej generacji
Najbardziej kontrowersyjnym, a zarazem kluczowym wnioskiem płynącym z opublikowanych badań jest jednoznaczne wykluczenie modelu Sora od OpenAI oraz Veo od Google z kategorii modeli świata. Choć projekty te imponują estetyką i płynnością ruchu, badacze – podobnie jak Yann LeCun z Mety – argumentują, że brakuje im fundamentalnego ogniwa: interaktywnej pętli sprzężenia zwrotnego z otoczeniem. Model świata nie może być jedynie widzem generującym kolejne klatki na podstawie tekstu. Musi on postrzegać środowisko, wchodzić z nim w interakcje i posiadać pamięć długoterminową, która pozwala na wyciąganie wniosków przyczynowo-skutkowych.
Z perspektywy naukowców Sora to zaawansowany symulator wizualny, który jedynie „zgaduje” przyszłe klatki wideo, nie gwarantując przy tym spójności fizycznej. Do tej samej kategorii systemów wykluczonych trafiły generatory kodów, wyszukiwarki internetowe oraz awatary AI. Te ostatnie, zdaniem autorów, służą głównie rozrywce i nie mają nic wspólnego z głębokim rozumieniem praw rządzących fizyczną przestrzenią.
OpenWorldLib: modułowa architektura przyszłości
Zamiast teoretycznych sporów badacze zaprezentowali OpenWorldLib – otwartoźródłowy framework, który ma posłużyć jako fundament do budowy i ewaluacji prawdziwych modeli świata. System składa się z pięciu kluczowych modułów: operatora przetwarzającego dane z sensorów, modułu syntezy (obrazu, dźwięku i poleceń ruchu), modułu rozumowania przestrzenno-czasowego, komponentu reprezentacji 3D oraz modułu pamięci. Taka struktura pozwala systemowi AI nie tylko „widzieć”, ale i operować wewnątrz trójwymiarowych symulacji, gdzie zasady fizyki są ściśle egzekwowane.
Wczesne testy przeprowadzone na procesorach NVIDIA H200 wyłoniły już pierwszych liderów. W zadaniach nawigacyjnych najwyższą jakość wizualną wykazał model Hunyuan-WorldPlay, natomiast w złożonych scenariuszach interaktywnych, wymagających interpretacji szerokiego wachlarza poleceń użytkownika, najlepiej poradził sobie projekt Cosmos od Nvidii. Wyniki te obnażyły jednocześnie słabości starszych podejść, które przy dłuższych sekwencjach borykały się z dryftem kolorów i niespójnością geometryczną przy gwałtownych ruchach kamery.
Krzemowa bariera i zmierzch Transformerów
Publikacja zawiera również krytyczne spojrzenie na obecną infrastrukturę sprzętową. Autorzy stawiają tezę, że współczesne układy GPU są fundamentalnie niedostosowane do potrzeb modeli świata. Dzisiejsza architektura optymalizowana jest pod przetwarzanie pojedynczych tokenów, co przy próbach generowania całych klatek wideo o ogromnej objętości danych staje się skrajnie nieefektywne. Sugerują oni, że konieczne może być odejście od dominującej architektury Transformer na rzecz nowych rozwiązań, które natywnie będą radzić sobie z danymi multimodalnymi.
Mimo że droga do stworzenia kompletnego, autonomicznego modelu świata jest jeszcze daleka, badacze upatrują nadziei w systemach takich jak Bagel. Udowadniają one, że modele językowe trenowane na ogromnych zbiorach danych mogą w teorii dostarczyć niezbędnych zdolności rozumowania, o ile zostaną osadzone w odpowiednio skonstruowanej, interaktywnej architekturze. OpenWorldLib ma być pierwszym krokiem w stronę standaryzacji tych wysiłków, przenosząc ciężar rozwoju AI z „ładnych obrazków” na rzeczywiste zrozumienie fizyki otaczającego nas świata.
