3DObraz

Nowa metoda AI rekonstruuje szczegóły scen 3D z symulowanych obrazów, wykorzystując renderowanie odwrotne

W ostatnich latach, narzędzia analizy i interpretacji obrazów komputerowych zyskały ogromną popularność, znajdując zastosowanie w robotyce, autonomicznej jeździe, opiece zdrowotnej, produkcji, a nawet rozrywce. Większość z obecnie stosowanych, najskuteczniejszych metod opiera się na sieciach neuronowych typu feed-forward. Choć modele te dobrze radzą sobie z danymi, na których były trenowane, często zawodzą w przypadku nowych, nieznanych obrazów i scenariuszy. Ponadto, interpretacja ich predykcji i wzorców wyodrębnianych z obrazów bywa problematyczna.

Nowe podejście opracowane na Uniwersytecie Princeton, opisane w publikacji „Nature Machine Intelligence”, oferuje bardziej przejrzyste i potencjalnie bardziej niezawodne rozwiązanie.

„Generatywna AI i renderowanie neuronowe przekształciły w ostatnich latach dziedzinę tworzenia nowych treści: generowania obrazów lub filmów na podstawie opisów scen”, wyjaśnia Felix Heide, główny autor artykułu. „Sprawdzamy, czy możemy odwrócić tę sytuację i wykorzystać te generatywne modele do wydobywania opisów scen z obrazów.”

Metoda ta wykorzystuje tzw. różniczkowalny potok renderowania – proces symulacji tworzenia obrazu, oparty na skompresowanych reprezentacjach obrazów generowanych przez modele AI. Działa to na zasadzie umieszczania modeli 3D obiektów w wirtualnej scenie, która odwzorowuje rzeczywiste otoczenie. Modele te są generowane przez generatywną AI na podstawie losowych próbek parametrów sceny 3D. Następnie, wszystkie obiekty są renderowane z powrotem do obrazu 2D. Porównując wygenerowany obraz z obserwowanym obrazem rzeczywistym, algorytm propaguje wstecz różnicę poprzez funkcję różniczkowalnego renderowania i model generowania 3D, aby zaktualizować jego dane wejściowe. W ten sposób optymalizuje te dane wejściowe, aby renderowany obraz lepiej pasował do obserwowanego obrazu.

Kluczową zaletą tego podejścia jest możliwość wykorzystania ogólnych modeli generowania obiektów 3D, wytrenowanych na syntetycznych danych, do efektywnego działania w szerokim zakresie zbiorów danych zawierających obrazy zarejestrowane w rzeczywistych warunkach. Co więcej, generowane renderingi są znacznie bardziej zrozumiałe niż te tworzone przez tradycyjne narzędzia oparte na modelach feed-forward.

„Nasze podejście do śledzenia oparte na renderowaniu odwrotnym działa równie dobrze, jak wyuczone metody feed-forward, ale zapewnia nam jawne objaśnienia 3D postrzeganego świata”, mówi Heide. „Innym interesującym aspektem są możliwości generalizacji. Bez zmiany modelu generowania 3D lub trenowania go na nowych danych, nasze śledzenie wielu obiektów 3D poprzez odwrócone renderowanie neuronowe działa dobrze w różnych zbiorach danych dotyczących autonomicznej jazdy i typach obiektów. Może to znacznie zmniejszyć koszt dostrajania do nowych danych lub przynajmniej funkcjonować jako potok automatycznego etykietowania.”

Naukowcy planują dalsze udoskonalanie swojej metody i testowanie jej w innych zadaniach związanych z widzeniem komputerowym. Kolejnym krokiem będzie rozszerzenie podejścia na inne zadania percepcji, takie jak wykrywanie 3D i segmentacja 3D. Ostatecznym celem jest zbadanie, czy renderowanie odwrotne może być wykorzystane do wnioskowania o całej scenie 3D, a nie tylko o poszczególnych obiektach. To otworzyłoby drogę do stworzenia robotów, które potrafiłyby rozumować i stale optymalizować trójwymiarowy model świata, z wbudowaną możliwością wyjaśniania swojego działania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *