Meta stawia na intuicyjne rozumienie świata: V-JEPA 2 a przyszłość robotyki
Ludzie od najmłodszych lat rozwijają zdolność intuicyjnego rozumienia świata fizycznego. Wiemy, że rzucona piłka spadnie. V-JEPA 2 od Meta ma na celu zaszczepienie podobnego rodzaju intuicyjnej fizyki w sztucznej inteligencji.
Nowy model opiera się na architekturze Joint Embedding Predictive Architecture (JEPA), którą Yann LeCun, główny naukowiec Meta, uważa za kluczowy krok w kierunku bardziej zaawansowanej inteligencji maszynowej. V-JEPA 2, podobnie jak jego poprzednik, różni się fundamentalnie od innych „modeli świata”, takich jak generator wideo Sora OpenAI czy duże modele językowe.
Modele świata mają umożliwiać agentom AI planowanie i rozumowanie w świecie fizycznym. LeCun wyraźnie odróżnia swoje podejście JEPA od modeli generatywnych, które, jak Sora czy modele językowe, próbują przewidywać każdy szczegół, aż do piksela czy słowa. JEPA koncentruje się jedynie na przewidywalnych, istotnych częściach sceny. LeCun posunął się nawet do stwierdzenia, że modele generatywne, takie jak Sora, są ślepym zaułkiem na drodze do prawdziwej inteligencji maszynowej.
Uczenie przez obserwację, nie generowanie pikseli
To właśnie architektura odróżnia V-JEPA 2. Zamiast operować na poziomie pikseli, model działa w przestrzeni wyuczonej reprezentacji. Nie próbuje przewidzieć pozycji każdego liścia na drzewie czy dokładnego kształtu każdego cienia. Zamiast tego, uczy się abstrakcyjnych koncepcji, takich jak „piłka spadnie” czy „obiekt porusza się w lewo”.
Ta abstrakcja sprawia, że system jest zarówno wydajniejszy, jak i bardziej odporny. Modele generatywne, takie jak Sora, marnują moc obliczeniową na generowanie nieistotnych szczegółów wizualnych. V-JEPA 2 skupia się tylko na informacjach potrzebnych do planowania i kontroli. Ta efektywność objawia się w praktyce: V-JEPA 2 potrzebuje zaledwie 16 sekund na zaplanowanie działania robota, podczas gdy generatywny model Cosmos Nvidii wymaga czterech minut.
Dwufazowe szkolenie z minimalną ilością danych robotycznych
Szkolenie V-JEPA 2 odbywa się w dwóch fazach. W pierwszej, model uczy się z ponad miliona godzin nagrań wideo i miliona obrazów — bez nadzoru człowieka. Zbiór danych jest starannie dobrany, obejmując wiele punktów widzenia: filmy z pierwszej osoby, ujęcia akcji z trzeciej osoby, nagrania samouczków i filtrowane treści z YouTube.
Technicznie, system wykorzystuje potężny koder z miliardem parametrów do tłumaczenia wideo na abstrakcyjne reprezentacje. Unikalnym aspektem szkolenia jest maskowanie części wideo, a „predyktor” musi wnioskować, co dzieje się w tych lukach — nie w kategoriach pikseli, ale jako abstrakcyjne koncepcje. To uczy system skupiania się na najważniejszych, przewidywalnych elementach sceny.
Druga faza wprowadza kontrolę robotów. Co zaskakujące, wymaga to zaledwie 62 godzin danych robotycznych z publicznego zbioru. Dedykowany predyktor uczy się, jak działania robotów zmieniają świat, bazując na już nabytych reprezentacjach. Dla porównania, inne systemy AI dla robotyki często potrzebują tysięcy godzin specyficznych danych treningowych i muszą być ponownie szkolone dla każdego nowego środowiska.
Imponujące wyniki w wielu zadaniach
V-JEPA 2 osiąga bardzo dobre wyniki w kilku standardowych benchmarkach. W zbiorze danych Something-Something v2, który testuje rozpoznawanie złożonych ruchów i interakcji (np. „przesuwanie czegoś z lewej na prawą” lub „przewracanie pojemnika i opróżnianie go”), model osiąga 77,3% dokładności, przewyższając inne wiodące modele wideo.
Szczególnie imponujące jest przewidywanie akcji. W teście Epic-Kitchens-100, który śledzi codzienne czynności kuchenne, V-JEPA 2 może przewidzieć następną akcję (taką jak „krojenie cebuli” lub „stawianie garnka na kuchence”) z sekundowym wyprzedzeniem z 39,7% dokładnością — co stanowi 44% poprawę w stosunku do poprzednich systemów. W połączeniu z modelem językowym może również odpowiadać na złożone pytania dotyczące treści wideo, osiągając najwyższe wyniki w wielu testach porównawczych.
Od rozumienia wideo do kontroli robotów
Meta przetestowała V-JEPA 2 na rzeczywistych robotach, używając wyłącznie publicznego zbioru danych DROID — kolekcji filmów przedstawiających różne ruchy robotów. Bez żadnego dodatkowego szkolenia, model był w stanie kontrolować dwa różne ramiona robota Franka w nowych środowiskach laboratoryjnych. Dla zadań takich jak chwytanie kubka czy podnoszenie i umieszczanie przedmiotów, osiągnął wskaźniki sukcesu od 65 do 80 procent.
Jak to działa? Robotowi pokazywane jest zdjęcie stanu docelowego — na przykład kubka umieszczonego w określonym miejscu. V-JEPA 2 następnie planuje krok po kroku ścieżkę do osiągnięcia tego celu, symulując różne możliwe ruchy w swoim wyuczonym modelu fizyki i wybierając najbardziej obiecujące. Po każdym ruchu sprawdza swoją aktualną pozycję i ponownie planuje kolejne kroki.
Nowe benchmarki ujawniają lukę w intuicyjnej fizyce AI
Wraz z V-JEPA 2 Meta wprowadza trzy nowe benchmarki do systematycznego testowania, jak dobrze systemy AI naprawdę rozumieją rzeczywistość fizyczną. Pierwszy, IntPhys 2, jest inspirowany eksperymentami z psychologii rozwojowej: pokazuje pary filmów, z których jeden narusza prawa fizyki — jak piłka spadająca w górę zamiast w dół. Podczas gdy ludzie natychmiast dostrzegają te niemożliwości, nawet najbardziej zaawansowane modele AI, w tym V-JEPA 2, radzą sobie ledwie powyżej poziomu losowego.
Drugi benchmark, MVPBench (Minimal Video Pairs), idzie jeszcze dalej. Wykorzystuje sprytnie zaprojektowane pary filmów, które wyglądają prawie identycznie, ale wymagają przeciwnych odpowiedzi na to samo pytanie. Ma to na celu uniemożliwienie modelom polegania na powierzchownych wskazówkach wizualnych lub językowych. Tutaj V-JEPA 2 osiąga 44,5% „sparowanej dokładności” — co jest najlepszym wynikiem spośród wszystkich testowanych systemów, znacznie wyprzedzając poprzedniego lidera InternVL-2.5 (39,9%), ale wciąż daleko mu do poziomu ludzkiego.
Trzeci, CausalVQA, testuje rozumowanie przyczynowe w scenariuszach fizycznych. Modele muszą nie tylko opisać to, co dzieje się w filmie, ale także odpowiadać na pytania kontrfaktyczne („Co by się stało, gdyby…”), przewidywać przyszłe wydarzenia i sugerować działania. Wniosek jest jasny: dzisiejsze systemy AI dobrze opisują to, co widzą, ale mają trudności z wyobrażeniem sobie alternatywnych wyników lub przewidywaniem tego, co będzie dalej.
W stronę modeli hierarchicznych
Pomimo swoich mocnych stron, V-JEPA 2 nadal boryka się z wyzwaniami. Ma trudności z długoterminowym planowaniem — może przewidzieć kilka następnych sekund, ale nie jest w stanie wykonywać złożonych, wieloetapowych zadań. System jest również wrażliwy na pozycję kamery, co może powodować problemy w rzeczywistych zastosowaniach.
Wizja Meta na przyszłość obejmuje modele hierarchiczne, które mogą planować w wielu skalach czasowych — od ułamków sekundy do minut lub godzin. Integracja dodatkowych zmysłów, takich jak dźwięk czy dotyk, również znajduje się na liście planów.
Zespół LeCuna obiera inną ścieżkę niż wielu innych gigantów technologicznych, stawiając na podejście JEPA. Jednocześnie Meta nie porzuciła generatywnej AI jako drogi do superinteligencji: Mark Zuckerberg obecnie gromadzi zespół skupiony na rozwijaniu tej linii badań.
