Robotyka

PEVA: Przełom w przewidywaniu percepcyjnym w sztucznej inteligencji

Zrozumienie, jak ruchy ludzkiego ciała wpływają na percepcję wizualną z perspektywy pierwszej osoby, jest elementarne dla rozwoju inteligentnych systemów zdolnych do efektywnego funkcjonowania w dynamicznym środowisku. Dotychczasowe próby modelowania tej zależności napotykały na znaczące ograniczenia, głównie ze względu na zbyt uproszczone traktowanie ruchu jako czynnika zewnętrznego, a nie fundamentalnego elementu kształtującego percepcję.

Tradycyjne modele przewidywania wideo, często oparte na niskowymiarowych danych wejściowych, takich jak prędkość czy kierunek głowy, pomijały złożoność i subtelność ruchu całego ciała. Brakowało im fizycznego ugruntowania, co ograniczało ich zastosowanie w scenariuszach wymagających precyzyjnego planowania i interakcji, gdzie nawet niewielka zmiana pozycji ciała może znacząco wpłynąć na to, co jest widoczne.

PEVA: Nowe podejście do predykcji widoku egocentrycznego

Przełom w tej dziedzinie stanowi model PEVA (Predicting Egocentric Video from Action), stworzony przez zespół badawczy z UC Berkeley, Meta FAIR i New York University. PEVA wyróżnia się zdolnością do przewidywania przyszłych klatek wideo egocentrycznego na podstawie ustrukturyzowanych danych o ruchu całego ciała, pochodzących z trajektorii pozowania 3D. Celem tej innowacji jest zademonstrowanie, jak kompleksowy ruch całego ciała wpływa na to, co osoba widzi, ustanawiając w ten sposób fundamentalne połączenie między działaniem a percepcją.

Rdzeniem architektury PEVA jest wykorzystanie warunkowego transformatora dyfuzyjnego, trenowanego na dużej bazie danych Nymeria. Baza ta zawiera rzeczywiste filmy egocentryczne zsynchronizowane z precyzyjnym pomiarem ruchu całego ciała. Model dyfuzyjny pozwala na generowanie nowych, spójnych klatek wideo na podstawie sekwencji ruchu, co dotychczas było znaczącym wyzwaniem.

Struktura PEVA i jej możliwości

Fundamentem PEVA jest szczegółowa reprezentacja działań. Każde wejście akcji to czterdziestoośmiowymiarowy wektor, zawierający dane o globalnym położeniu oraz rotacjach piętnastu stawów górnej części ciała w przestrzeni 3D. Te dane są normalizowane i przekształcane do lokalnego układu współrzędnych, co eliminuje błędy wynikające z podstawowego położenia. Taka kompleksowa reprezentacja dynamiki ciała umożliwia modelowi uchwycenie zarówno ciągłego, jak i subtelnego charakteru rzeczywistego ruchu, co jest kluczowe dla wiarygodnej symulacji.

PEVA działa jako autoregresywny model dyfuzyjny. Wykorzystuje enkoder wideo do konwersji klatek na ukryte reprezentacje stanu. Następnie przewiduje kolejne klatki na podstawie poprzednich stanów i danych o akcjach ciała. Aby umożliwić długoterminowe generowanie wideo, system wprowadza losowe przeskoki czasowe podczas treningu, co pozwala mu uczyć się zarówno z natychmiastowych, jak i opóźnionych wizualnych konsekwencji ruchu. Ten innowacyjny mechanizm przyczynia się do zwiększenia spójności sekwencji wideo, nawet przy dłuższych horyzontach czasowych.

Wyniki i perspektywy na przyszłość

Ocena wydajności PEVA obejmowała szereg metryk, testujących zarówno krótkoterminowe, jak i długoterminowe zdolności przewidywania wideo. Model był w stanie generować wizualnie spójne i semantycznie dokładne klatki wideo przez dłuższe okresy. W przypadku krótkoterminowych przewidywań, ocenianych w dwusekundowych interwałach, osiągnięto niższe wartości LPIPS (miernik odległości percepcyjnej, gdzie niższa wartość oznacza lepszą jakość) i wyższą spójność DreamSim w porównaniu do modeli bazowych, co świadczy o wyższej jakości percepcyjnej generowanych obrazów. System z powodzeniem potrafił rozłożyć ruch ludzki na podstawowe działania, takie jak ruchy ramion i obroty ciała, co pozwoliło na ocenę jego precyzji w kontrolowaniu finezyjnych ruchów.

Ponadto, model przetestowano w rozszerzonych testach działania trwających do szesnastu sekund, gdzie z sukcesem symulowano opóźnione wyniki, zachowując jednocześnie spójność sekwencji. Te eksperymenty potwierdziły, że włączenie kontroli całego ciała do modelu znacząco poprawiło realizm i kontrolowalność generowanego wideo. Badania nad PEVA otwierają drogę do bardziej zaawansowanych, ugruntowanych fizycznie systemów AI, które mogą dokładniej antycypować i reagować na dynamiczne zmiany w otoczeniu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *