Modele fizyczne

LeWorldModel: Yann LeCun i przełom w architekturze JEPA. Koniec z 'zapadaniem się’ modeli świata

Współczesne systemy autonomiczne w dużej mierze polegają na tak zwanych modelach świata (World Models). Umożliwiają one agentom SI planowanie działań w kompaktowej przestrzeni ukrytej (latent space), zamiast operować na surowych danych wizualnych. Największym wyzwaniem w ich trenowaniu był dotąd problem „zapadania się” reprezentacji (representation collapse). Polega on na tym, że model uczy się generować identyczne lub nieistotne wektory dla różnych danych, co matematycznie minimalizuje błąd przewidywania, ale czyni system bezużytecznym. Aby temu zapobiec, inżynierowie musieli stosować rozwiązania zastępcze w postaci zamrożonych koderów czy mechanizmów typu stop-gradient.

Minimalizm zamiast inżynieryjnego chaosu

LeWorldModel (LeWM), opracowany przez naukowców z NYU, MILA oraz Samsung SAIL, odcina się od tych praktyk. Zamiast siedmiu parametrów kosztu (loss terms), jak w poprzednich modelach tego typu, LeWM opiera się na zaledwie dwóch. Pierwszy to klasyczny błąd predykcji kolejnego stanu, drugi zaś to SIGReg (Sketched-Isotropic-Gaussian Regularizer) – innowacyjny mechanizm dbający o różnorodność cech w przestrzeni ukrytej.

SIGReg wykorzystuje twierdzenie Craméra-Wolda, aby w sposób matematycznie elegancki wymusić na reprezentacjach rozkład Gaussa. W praktyce oznacza to, że model nie potrzebuje zewnętrznych, gigantycznych modeli wizyjnych (tak zwanych foundation models) jako nauczycieli. Uczy się wszystkiego sam, bezpośrednio z surowych pikseli, będąc przy tym wyjątkowo stabilnym podczas całego procesu treningowego typu end-to-end.

Wydajność w czasie rzeczywistym

Zastosowanie architektury ViT-Tiny oraz transformera do predykcji dynamiki pozwoliło na osiągnięcie niespotykanej dotąd efektywności. LeWM wykorzystuje około 200 razy mniej tokenów do opisu obserwacji niż konkurencyjne rozwiązania typu DINO-WM. Przekłada się to bezpośrednio na tempo pracy: cykl planowania trajektorii ruchu, który w innych systemach zajmuje niemal minutę, tutaj trwa mniej niż sekundę. Tak znaczące skrócenie czasu reakcji otwiera nowe możliwości w robotyce, gdzie decyzje muszą być podejmowane niemal natychmiastowo.

Zrozumienie praw fizyki bez nadzoru

Co najciekawsze, LeWM wykazuje emergentne zdolności do rozumienia reguł rządzących rzeczywistością. Naukowcy sprawdzili to za pomocą testów „naruszenia oczekiwań” (Violation-of-Expectation). Model potrafi zidentyfikować sytuacje fizycznie niemożliwe, takie jak nagła teleportacja obiektu, przypisując im wysoki stopień „zaskoczenia”. Co więcej, w trakcie nauki trajektorie w jego przestrzeni ukrytej ulegają naturalnemu wygładzeniu (Temporal Latent Path Straightening), co ułatwia przewidywanie przyszłości w sposób liniowy i intuicyjny, mimo braku jawnych instrukcji od programistów, by tak właśnie się działo.

LeWorldModel udowadnia, że kluczem do inteligentnych agentów nie jest zwiększanie liczby parametrów, lecz lepsza architektura matematyczna, która potrafi samodzielnie wydobyć sens z chaosu wizualnego.