Przełom w AI: Modele rozumieją fizykę ruchu, nie tylko go rysują
Dotychczas sztuczna inteligencja potrafiła generować wizualizacje ruchów, które wydawały się naturalne. Nowe osiągnięcie zespołu badawczego z Korea Advanced Institute of Science and Technology (KAIST) pod kierownictwem profesora Tae-Kyuna (T-K) Kima, przenosi tę zdolność na zupełnie nowy poziom. Opracowany model MPMAvatar jest w stanie zrozumieć, dlaczego obiekty poruszają się w określony sposób, uwzględniając prawa fizyki.
Kluczem do postępu jest odejście od dwuwymiarowego, pikselowego podejścia na rzecz rekonstrukcji trójwymiarowej przestrzeni z wykorzystaniem Gaussian Splatting oraz techniki symulacji fizyki Material Point Method (MPM). W praktyce oznacza to, że model AI jest „uczonym” poprzez wielokrotne analizowanie nagrań z różnych perspektyw. Na ich podstawie rekonstruuje środowisko 3D, w którym obiekty zachowują się zgodnie z zasadami świata rzeczywistego, uwzględniając ich materiał, kształt oraz działające na nie siły zewnętrzne.
Symulacja fizyki w wirtualnej przestrzeni
Naukowcy przedstawili przestrzeń 3D jako zbiór punktów, do których zastosowano jednocześnie Gaussian Splatting oraz MPM. Pozwoliło to na symulację płynnego, naturalnego ruchu i deformacji obiektów, co skutkuje niemal fotorealistycznym renderingiem. Szczególnie istotne jest precyzyjne oddanie zachowania cienkich i złożonych obiektów, takich jak odzież. W tym celu zespół jednocześnie analizował powierzchnie (siatki) oraz strukturę cząsteczkową (punkty) obiektów, wykorzystując MPM do obliczania ich ruchu i deformacji w przestrzeni 3D zgodnej z prawami fizyki.
Model MPMAvatar z powodzeniem odwzorował realistyczne ruchy i interakcje na przykładzie osoby w luźnych ubraniach. Co więcej, zademonstrowano również jego zdolność do generowania tzw. „zero-shot”, czyli przetwarzania danych, których nigdy wcześniej nie widział podczas procesu uczenia, opierając się na wnioskowaniu.
Od awatarów po AGI
Przełomowe podejście ma zastosowanie w różnych scenariuszach fizycznych, w tym dla obiektów sztywnych, deformowalnych czy płynów. Tym samym otwiera drogę nie tylko do tworzenia realistycznych awatarów, ale także do generowania skomplikowanych scen ogólnych.
Profesor Kim podkreśla, że technologia ta wykracza poza jedynie „rysowanie obrazka” przez AI. Sprawia, że sztuczna inteligencja zaczyna rozumieć „dlaczego” świat wygląda w określony sposób. Sugeruje, że to ważny krok w kierunku rozwoju „Fizycznej AI”, zdolnej do rozumienia i przewidywania praw fizyki, co stanowi kamień milowy w dążeniu do ogólnej sztucznej inteligencji (AGI).
Oczekuje się, że MPMAvatar znajdzie szerokie zastosowanie w przemyśle treści immersyjnych, w tym w wirtualnej produkcji, filmach, krótkich formach wideo i reklamach. Zespół badawczy pracuje obecnie nad rozszerzeniem tej technologii, aby umożliwić generowanie spójnych fizycznie filmów 3D wyłącznie na podstawie tekstowego inputu użytkownika. Badanie zostało opublikowane na serwerze preprintów arXiv 22 października 2025.
