Robotyka

Google DeepMind prezentuje D4RT: Nowy standard trójwymiarowego widzenia dla robotów

Zrozumienie przez sztuczną inteligencję relacji przestrzennych i ruchu w czasie od lat stanowiło jedno z największych wyzwań obliczeniowych. Podczas gdy ludzie intuicyjnie oceniają głębię i trajektorię poruszających się obiektów, systemy wizyjne AI często gubiły się w gąszczu niespójnych danych. Inżynierowie z Google DeepMind zaprezentowali jednak rozwiązanie o nazwie D4RT (Dynamic 4D Reconstruction and Tracking), które może definitywnie zakończyć ten impas.

Koniec z technologicznym rozdrobnieniem

Tradycyjne podejście do rekonstrukcji 4D (czyli trójwymiarowej przestrzeni wzbogaconej o wektor czasu) opierało się na łączeniu wielu wyspecjalizowanych, lecz odseparowanych od siebie modeli. Jeden odpowiadał za segmentację ruchu, inny za estymację głębi, a jeszcze inny za parametry kamery. Taka mozaika wymagała potężnych zasobów obliczeniowych do zapewnienia spójności geometrycznej. D4RT odchodzi od tej koncepcji na rzecz zunifikowanej architektury bazującej na Scene Representation Transformer.

System wykorzystuje potężny enkoder, który przetwarza sekwencję wideo jako jedną całość, kompresując ją do globalnej reprezentacji sceny. Zamiast mozolnego przeliczania każdego piksela z osobna, lekki dekoder wysyła zapytania o konkretne punkty tylko wtedy, gdy są one faktycznie potrzebne. Co kluczowe, model potrafi przewidzieć położenie obiektów nawet w sytuacjach, gdy znikają one na chwilę z pola widzenia lub są zasłonięte przez inne elementy otoczenia.

Przełom w wydajności: sekundy zamiast minut

Głównym atutem D4RT, obok jego precyzji, jest bezprecedensowa szybkość działania. W testach przeprowadzonych przez DeepMind model przetworzył jednominutowe nagranie wideo w zaledwie pięć sekund na pojedynczym układzie TPU. Konkurencyjne rozwiązania na to samo zadanie potrzebowały nawet dziesięciu minut. W skrajnych przypadkach D4RT okazuje się od 18 do nawet 300 razy szybszy od dotychczasowych metod.

Warto zwrócić uwagę na surowe dane: w estymacji położenia kamery system osiąga wynik ponad 200 klatek na sekundę. To dziewięciokrotnie szybciej niż model VGGT i sto razy szybciej niż popularny MegaSaM, przy jednoczesnym zachowaniu wyższej dokładności odwzorowania detali i głębi.

Od rozszerzonej rzeczywistości po fundamenty AGI

Bezpośrednie korzyści z wdrożenia tej technologii odczuje sektor robotyki oraz branża AR. Dzięki D4RT roboty zyskają zdolność płynnej nawigacji w dynamicznym, zmieniającym się otoczeniu, a aplikacje rozszerzonej rzeczywistości będą mogły w niemal idealny sposób osadzać wirtualne obiekty w fizycznej przestrzeni. Dzięki niespotykanej wydajności implementacja modelu bezpośrednio na urządzeniach mobilnych staje się realną perspektywą.

W szerszym kontekście badacze z DeepMind widzą w D4RT fundament dla bardziej zaawansowanych „modeli świata”. To kluczowy element na drodze do stworzenia ogólnej sztucznej inteligencji (AGI). Zamiast polegać wyłącznie na wyuczonych schematach, przyszłe systemy AI mają uczyć się poprzez doświadczanie i przewidywanie zmian wewnątrz tych trójwymiarowych modeli, upodabniając swój proces poznawczy do ludzkiego sposobu rozumienia rzeczywistości.