Abstrakcja 3D: połączenie klatek wideo, siatki szkieletowej i obwodu drukowanego w błękitno-zielonej tonacji.

Nvidia otwiera kod ViPE: przełom w 3D dla robotyki i AI przestrzennego

2025-09-16 AI Sight

Nvidia prezentuje ViPE (Video Pose Engine), innowacyjne narzędzie, które ma zrewolucjonizować sposób, w jaki tworzone są trójwymiarowe zbiory danych na potrzeby sztucznej inteligencji. ViPE, udostępniony jako otwarte oprogramowanie, rozwiązuje bowiem kluczowy problem w rozwoju przestrzennego AI: automatyczne i precyzyjne pozyskiwanie informacji 3D z materiałów wideo.

Problem jest istotny, ponieważ większość danych wideo, od nagrań smartfonami po profesjonalne produkcje filmowe, to obrazy dwuwymiarowe. Aby roboty, autonomiczne pojazdy czy systemy rzeczywistości rozszerzonej mogły efektywnie funkcjonować w świecie rzeczywistym, konieczne jest przetworzenie tych płaskich obrazów na informacje przestrzenne.

Wykorzystanie ViPE

Do tej pory istniały dwa główne podejścia, oba z poważnymi wadami. Klasyczne metody SLAM i SfM (Simultaneous Localization and Mapping oraz Structure-from-Motion) charakteryzują się wysoką precyzją, ale są niezwykle wrażliwe na zakłócenia. Wystarczy ruchomy obiekt w kadrze, ściana bez wyraźnej tekstury lub nieznany model kamery, aby rekonstrukcja 3D uległa zniekształceniu.

Z drugiej strony, modele głębokiego uczenia, choć odporne na szumy i dynamikę sceny, wymagają ogromnej mocy obliczeniowej i nie radzą sobie z długimi sekwencjami wideo. Nvidia ViPE łączy zalety obu tych opcji, tworząc hybrydowe rozwiązanie, które jest jednocześnie dokładne, wydajne i wszechstronne.

Jak działa ViPE?

Silnik ViPE opiera się na ramowej strukturze Bundle Adjustment (BA), która zapewnia efektywność działania. Kluczowe innowacje to:

Synergia ograniczeń: ViPE łączy dane z różnych źródeł, wykorzystując optyczny przepływ, tradycyjne śledzenie cech i modele głębi, aby uzyskać precyzyjne wyniki w rzeczywistej skali.
Obsługa dynamicznych scen: ViPE wykorzystuje zaawansowane narzędzia segmentacji, takie jak GroundingDINO i Segment Anything (SAM), do identyfikacji i maskowania ruchomych obiektów, zapewniając, że ruch kamery jest obliczany tylko na podstawie statycznego otoczenia.
Szybkość i uniwersalność: ViPE działa z szybkością 3-5 klatek na sekundę na pojedynczym GPU i obsługuje różne modele kamer, w tym standardowe, szerokokątne i panoramiczne.
Wysokiej jakości mapy głębi: ViPE generuje szczegółowe i stabilne w czasie mapy głębi, które wiernie odwzorowują geometrię sceny.

Wyniki i perspektywy

Testy wykazały, że ViPE znacząco przewyższa dotychczasowe metody estymacji pozy. Co istotne, ViPE zapewnia dokładną metryczną skalę, której często brakuje innym rozwiązaniom.

Jednak największym osiągnięciem ViPE jest jego zastosowanie do tworzenia ogromnych zbiorów danych, kluczowych dla rozwoju AI przestrzennego. Nvidia udostępniła trzy obszerne zbiory danych:

Dynpose-100K++: Zawiera blisko 100 tysięcy filmów z internetu.
Wild-SDG-1M: Ogromna kolekcja wygenerowanych przez AI filmów.
Web360: wyspecjalizowany zbiór panoramicznych filmów.

Te zbiory danych stanowią paliwo dla nowej generacji modeli 3D i są już wykorzystywane do trenowania zaawansowanych modeli generowania świata, takich jak Gen3C i Cosmos firmy Nvidia. Udostępnienie ViPE jako otwartego oprogramowania ma przyspieszyć innowacje w dziedzinie AI przestrzennego, robotyki i AR/VR.

Wykorzystanie ViPE

Jak działa ViPE?

Wyniki i perspektywy

Udostępnij:

Zobacz również

Badania Meta AI: wyzwania w planowaniu długoterminowym i rozumowaniu przyczynowo-skutkowym.

Debata o zdolnościach rozumowania sztucznej inteligencji: Czy Apple przedwcześnie skazało modele LRM?

Nowy paradygmat w AI: Transformery energetyczne rewolucją w rozumowaniu maszyn

Dodaj komentarz Anuluj pisanie odpowiedzi