3DObrazR & D

Meta AI prezentuje MapAnything: przełom w rekonstrukcji 3D scen dzięki architekturze Transformer

Zespół badaczy z Meta Reality Labs i Carnegie Mellon University zaprezentował MapAnything, nowatorską architekturę Transformer, która rewolucjonizuje proces rekonstrukcji trójwymiarowych scen. Model ten, dostępny na licencji Apache 2.0 wraz z pełnym kodem treningowym i benchmarkami, stanowi znaczący krok naprzód w dziedzinie wizji komputerowej, umożliwiając realizację różnorodnych zadań 3D w pojedynczym przebiegu. MapAnything eliminuje potrzebę stosowania skomplikowanych, specjalistycznych algorytmów.

Dlaczego uniwersalny model rekonstrukcji 3D to przełom?

Tradycyjnie, rekonstrukcja 3D opierała się na złożonych potokach algorytmów, obejmujących detekcję cech, estymację pozycję z dwóch widoków, dopasowanie wiązki, multi-view stereo czy wnioskowanie głębi monokularnej. Chociaż te modułowe rozwiązania były skuteczne, wymagają one precyzyjnego dostrajania, optymalizacji i intensywnego przetwarzania końcowego, często zależnego od konkretnego zadania.

Nowsze modele typu feed-forward, oparte na architekturze Transformer, takie jak DUSt3R, MASt3R i VGGT, uprościły niektóre etapy tego procesu, ale nadal miały ograniczenia związane z liczbą obsługiwanych widoków, sztywnymi założeniami dotyczącymi kamery lub poleganiem na sprzężonych reprezentacjach, które wymagały czasochłonnej optymalizacji. MapAnything pokonuje te ograniczenia, oferując:

  • Możliwość przetwarzania do 2000 obrazów wejściowych w jednym przebiegu wnioskowania.
  • Elastyczne wykorzystanie danych pomocniczych, takich jak parametry wewnętrzne kamery, pozy i mapy głębi.
  • Bezpośrednią rekonstrukcję 3D bez konieczności dopasowywania wiązki.

Model wykorzystuje rozkład sceny na czynniki, składający się z map promieni, głębokości, pozycji i globalnego współczynnika skali, co zapewnia wyjątkową modułowość i uniwersalność.

Architektura i reprezentacja danych w MapAnything

Sercem MapAnything jest transformator z naprzemienną uwagą z wielu widoków. Każdy obraz wejściowy jest kodowany za pomocą cech DINOv2 ViT-L, a opcjonalne dane wejściowe (promienie, głębokość, pozy) są kodowane w tej samej przestrzeni utajonej za pomocą płytkich CNN lub MLP. Nauczona zmienna skalująca umożliwia metryczną normalizację między widokami.

Sieć zwraca rozłożoną na czynniki reprezentację, która obejmuje kierunki promieni dla każdego widoku (kalibracja kamery), głębokość wzdłuż promieni (oszacowana z dokładnością do skali), pozycje kamery względem widoku referencyjnego oraz pojedynczy współczynnik skali metrycznej, który konwertuje lokalne rekonstrukcje na globalnie spójny układ.

Takie podejście pozwala uniknąć redundancji i umożliwia temu samemu modelowi obsługę estymacji głębi monokularnej, multi-view stereo, structure-from-motion (SfM) czy uzupełniania głębi bez konieczności stosowania specjalistycznych modułów.

Strategia treningowa

MapAnything był trenowany na zróżnicowanym zestawie 13 zbiorów danych obejmujących obszary wewnątrz i na zewnątrz budynków oraz dane syntetyczne, w tym BlendedMVS, Mapillary Planet-Scale Depth, ScanNet++ i TartanAirV2. Udostępnione zostały dwa warianty modelu:

  • Model na licencji Apache 2.0, wytrenowany na sześciu zbiorach danych.
  • Model na licencji CC BY-NC, wytrenowany na wszystkich trzynastu zbiorach danych, oferujący lepszą wydajność.

Kluczowe elementy strategii treningowej obejmują losowe pomijanie danych wejściowych (dropout), aby zapewnić odporność na heterogeniczne konfiguracje oraz próbkowanie oparte na współwidoczności, które gwarantuje znaczące nakładanie się widoków wejściowych. Istotne były także odpowiednie funkcje strat w przestrzeni logarytmicznej, które poprawiają stabilność optymalizacji głębi, skali i pozycji.

Wyniki testów porównawczych

MapAnything osiąga najnowocześniejsze wyniki (state-of-the-art – SoTA) w wielu kategoriach, takich jak punktowe mapy, głębia, pozycja i estymacja promieni, przewyższając dotychczasowe rozwiązania, nawet przy użyciu samych obrazów. Co istotne, skuteczność wzrasta wraz z wykorzystaniem danych o kalibracji lub położeniu.

Dla przykładu, błąd względny punktowej mapy (rel) poprawia się do 0.16 przy wykorzystaniu tylko obrazów, w porównaniu do 0.20 dla VGGT. Zastosowanie obrazów, parametrów wewnętrznych, pozycji i głębi redukuje błąd do zaledwie 0.01, przy zachowaniu wskaźnika inlier powyżej 90%. Nawet w kalibracji pojedynczego obrazu, model osiąga bardzo dobre wyniki, mimo że nie był do tego specjalnie trenowany.

Kluczowe innowacje MapAnything

Zespół badawczy podkreśla cztery główne innowacje wprowadzone przez MapAnything: Model posiada ujednoliconą architekturę typu feed-forward, która obsługuje ponad 12 różnych problemów, od głębi monokularnej po SfM i stereo. Reprezentacja sceny oparta jest o rozłożenie na czynniki umożliwiające separację promieni, głębi, pozycji i skali metrycznej. Model osiąga najnowocześniejsze wyniki w różnorodnych testach porównawczych, wykazując przy tym mniejszą redundancję i większą skalowalność. Całość jest udostępniona jako open-source na licencji Apache 2.0, w tym dane, skrypty treningowe, benchmarki i wstępnie wytrenowane wagi.

Podsumowanie

MapAnything wyznacza nowy standard w dziedzinie wizji 3D, jednocząc zadania rekonstrukcji, takie jak SfM, stereo, estymacja głębi i kalibracja, w ramach jednego modelu Transformer z reprezentacją scen rozłożoną na czynniki. Przewyższa on specjalistyczne metody i płynnie adaptuje się do heterogenicznych danych wejściowych. Jako rozwiązanie open-source, MapAnything stanowi solidną bazę dla przyszłych, uniwersalnych systemów rekonstrukcji 3D.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *