Gen AIR & DVideo

DeepMind prezentuje „Force Prompting”: AI generuje realistyczny ruch wideo bez silników fizycznych

Zespoł badaczy z Brown University i DeepMind opracował innowacyjną metodę generowania wideo, nazwaną „Force Prompting”. Technika ta umożliwia tworzenie realistycznych animacji ruchu poprzez bezpośrednie oddziaływanie na obiekty wirtualnymi siłami. Co istotne, rozwiązanie to nie wymaga skomplikowanych silników fizycznych ani precyzyjnych modeli 3D, co znacząco upraszcza proces tworzenia dynamicznych scen.

Intuicyjne sterowanie ruchem

„Force Prompting” pozwala użytkownikom na „popchnięcie” generowanego przez AI ruchu poprzez określenie kierunku i siły oddziaływania. Model rozróżnia siły globalne, takie jak wiatr wpływający na całą scenę, oraz lokalne, np. uderzenie w konkretny punkt. Informacje o sile są przekazywane do systemu w formie pól wektorowych, które są następnie tłumaczone na naturalnie wyglądający ruch.

Siły globalne działają jednolicie na całe zdjęcie, lokalne natomiast skupiają się na określonym punkcie. Taka kontrola pozwala na precyzyjne modelowanie interakcji w wirtualnym środowisku.

Jak to działa?

Model bazuje na architekturze CogVideoX-5B-I2V, wzbogaconej o moduł ControlNet do przetwarzania danych kontrolnych. Sygnały te są przekazywane do architektury Transformer, która generuje 49 klatek na wideo. Co ciekawe, system został wytrenowany w zaledwie jeden dzień przy użyciu czterech procesorów graficznych Nvidia A100.

Syntetyczne dane treningowe

Całość danych treningowych była syntetyczna. Do modelowania sił globalnych badacze stworzyli 15 000 filmów z flagami powiewającymi na wietrze o różnej sile. Dla sił lokalnych wygenerowano 12 000 filmów z toczącymi się kulami i 11 000 klipów z kwiatami reagującymi na uderzenia. Opisy tekstowe generowane automatycznie zawierały terminy fizyczne, takie jak „wiatr” czy „bańki”, co pomogło modelowi w nauce odpowiednich relacji.

Każdy przykład treningowy łączył opis tekstowy, obraz początkowy i siłę fizyczną – reprezentowaną jako pole wektorowe (dla sił globalnych) lub sygnał ruchu z kierunkiem, lokalizacją i siłą (dla sił lokalnych). Siły te, początkowo symulowane w 3D, zostały przekształcone na współrzędne obrazu 2D. Aby zapewnić różnorodność, badacze losowali tła, oświetlenie, kąty kamery oraz kierunki wiatru i uderzeń.

Intuicyjna fizyka z małego zbioru danych

Pomimo trenowania na stosunkowo niewielkiej ilości danych, model dobrze radzi sobie z generalizacją na nowe obiekty, materiały i scenariusze. Rozumie nawet proste prawa fizyki – lżejsze obiekty poruszają się dalej niż cięższe, gdy zostaną uderzone z tą samą siłą. Model nauczył się, że pełny kosz na pranie porusza się wolniej niż pusty, gdy zostanie popchnięty.

Realistyczny ruch, ale nie pełna symulacja

Chociaż „Force Prompting” generuje przekonujące rezultaty, nie może w pełni zastąpić dokładnych symulacji fizycznych. W skomplikowanych scenariuszach zdarzają się błędy – dym czasami ignoruje wiatr, a ludzkie ramiona poruszają się jak tkanina. Niemniej jednak, technika ta jest skutecznym sposobem na dodanie plausybilnych fizycznie interakcji do wideo generowanego przez AI.

Demis Hassabis, CEO DeepMind, podkreślił, że nowe modele wideo AI, takie jak Veo 3, zaczynają rozumieć podstawowe zasady fizyki. Modele te wykraczają poza podstawowe przetwarzanie tekstu lub obrazu i zaczynają reprezentować fizyczną strukturę świata, co jest kluczowym krokiem w kierunku bardziej ogólnej sztucznej inteligencji, która może uczyć się na podstawie doświadczeń w symulacjach, a nie tylko na podstawie danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *