Tencent prezentuje HY-Motion 1.0: rewolucja w generowaniu animacji 3D z tekstu
Zespół Tencent Hunyuan do spraw cyfrowego człowieka 3D zaprezentował HY-Motion 1.0 – otwartą rodzinę modeli typu text-to-3D human motion generation. Jest to znaczący krok naprzód w dziedzinie generowania ruchu postaci na podstawie instrukcji tekstowych. HY-Motion 1.0, oparty na architekturze Diffusion Transformer (DiT) i technologii Flow Matching, skaluje się do miliarda parametrów, co dotychczas było niespotykane w tej dziedzinie.
Modele te pozwalają na przekształcenie języka naturalnego i określonego czasu trwania w trójwymiarowe klipy ruchu ludzkiego na ujednoliconym szkielecie SMPL-H. Dostępne są już na platformach GitHub i Hugging Face wraz z kodem, punktami kontrolnymi i interfejsem Gradio, co umożliwia lokalne wykorzystanie ich przez deweloperów.
Architektura i warianty HY-Motion 1.0
HY-Motion 1.0 to seria modeli generujących ruch 3D na podstawie tekstu, zbudowana na Diffusion Transformerze (DiT) i wytrenowana przy użyciu celu Flow Matching. Dostępne są dwa główne warianty: standardowy HY-Motion-1.0 z miliardem parametrów oraz lżejsza opcja, HY-Motion-1.0-Lite, posiadająca 0,46 miliarda parametrów. Oba modele generują animacje 3D postaci oparte na szkielecie z prostych podpowiedzi tekstowych. W efekcie otrzymujemy sekwencję ruchu na szkielecie SMPL-H, którą można zintegrować z potokami animacji 3D, na przykład dla cyfrowych ludzi, scenariuszy filmowych i interaktywnych postaci. W pakiecie udostępniono skrypty do wnioskowania, interfejs CLI z obsługą batchową oraz aplikację webową Gradio, z pełnym wsparciem dla systemów macOS, Windows i Linux.
Dane treningowe i taksonomia ruchu
Kluczowym elementem sukcesu HY-Motion 1.0 jest obszerny i starannie wyselekcjonowany zbiór danych treningowych. Pochodzi on z trzech źródeł: nagrań wideo ruchu ludzkiego, danych z systemów motion capture oraz zasobów animacji 3D wykorzystywanych w produkcji gier. Zespół badawczy rozpoczął od 12 milionów wysokiej jakości klipów wideo z platformy HunyuanVideo. Po detekcji granic ujęć i wykrywaniu postaci zastosowano algorytm GVHMR do rekonstrukcji ścieżek ruchu SMPL-X. Dodatkowo sesje motion capture i biblioteki animacji 3D wniosły około 500 godzin sekwencji ruchu.
Wszystkie dane zostały przetworzone i dopasowane do ujednoliconego szkieletu SMPL-H za pomocą narzędzi do dopasowywania siatek i retargetingu. Wielostopniowy filtr usunął duplikaty, nienormalne pozy, anomalie w prędkościach stawów, nieprawidłowe przemieszczenia, długie segmenty statyczne oraz artefakty, takie jak ślizganie stóp. Ruchy zostały następnie skanonicznie przetworzone, zresamplowane do 30 klatek na sekundę i podzielone na klipy krótsze niż 12 sekund, z ustaloną ramą światową – osią Y skierowaną do góry i postacią zwróconą w kierunku dodatniej osi Z. Ostateczny korpus danych treningowych zawiera ponad 3000 godzin materiału, z czego 400 godzin to wysokiej jakości ruch 3D z zweryfikowanymi podpisami.
Na podstawie tych danych zespół badawczy zdefiniował trójpoziomową taksonomię ruchu. Na najwyższym poziomie wyróżniono sześć kategorii: lokomocja, sport i lekkoatletyka, fitness i aktywności na świeżym powietrzu, codzienne aktywności, interakcje społeczne oraz czynności postaci z gier i spędzanie wolnego czasu. Kategorie te rozszerzają się na ponad 200 bardziej szczegółowych kategorii ruchu na niższych poziomach, obejmujących zarówno proste, atomowe akcje, jak i złożone kombinacje ruchów współbieżnych lub sekwencyjnych.
Innowacyjne podejście do generowania ruchu
HY-Motion 1.0 wykorzystuje szkielet SMPL-H z 22 stawami ciała, bez szczegółowej reprezentacji dłoni. Każda klatka jest 201-wymiarowym wektorem, łączącym przesunięcie globalne korzenia w przestrzeni 3D, globalną orientację ciała w ciągłej reprezentacji rotacji 6D, 21 lokalnych rotacji stawów w formie 6D oraz 22 lokalne pozycje stawów we współrzędnych 3D. Zrezygnowano z prędkości i oznaczeń kontaktu stopy, ponieważ spowalniało to trening i nie przyczyniało się do poprawy końcowej jakości. Ta reprezentacja jest kompatybilna z przepływami pracy animacji i zbliżona do reprezentacji modelu DART.
Głównym elementem sieci jest hybrydowy HY Motion DiT. Początkowo stosuje on bloki dwustrumieniowe, które przetwarzają utajone stany ruchu i tokeny tekstowe oddzielnie. W tych blokach każda modalność ma własne projekcje QKV i MLP, a wspólny moduł uwagi pozwala tokenom ruchu na odpytywanie cech semantycznych od tokenów tekstowych, jednocześnie zachowując strukturę specyficzną dla modalności. Następnie sieć przechodzi do bloków jednostrumieniowych, które łączą tokeny ruchu i tekstu w jedną sekwencję i przetwarzają je za pomocą równoległych modułów uwagi przestrzennej i kanałowej, aby przeprowadzić głębszą multimodalną fuzję.
W celu warunkowania tekstu system wykorzystuje schemat podwójnego kodera. Qwen3 8B dostarcza osadzenia na poziomie tokenów, podczas gdy model CLIP-L dostarcza globalne cechy tekstu. Dwukierunkowy Refiner Tokenów koryguje przyczynowe błędy uwagi LLM dla generacji nieregionalnej. Te sygnały zasilają DiT poprzez adaptacyjną normalizację warstw. Uwaga jest asymetryczna – tokeny ruchu mogą zwracać uwagę na wszystkie tokeny tekstu, ale tokeny tekstu nie zwracają uwagi na ruch, co zapobiega zanieczyszczeniu reprezentacji języka przez zaszumione stany ruchu. Uwaga czasowa w gałęzi ruchu wykorzystuje wąskie, przesuwne okno 121 klatek, co koncentruje się na lokalnej kinetyce, jednocześnie utrzymując koszty obsługi długich klipów. Pełne osadzenie obrotowej pozycji jest stosowane po połączeniu tokenów tekstu i ruchu, aby kodować względne pozycje w całej sekwencji.
Metodologia treningu i optymalizacja
HY-Motion 1.0 wykorzystuje Flow Matching zamiast standardowego odszumiania dyfuzyjnego. Model uczy się pola prędkości wzdłuż ciągłej ścieżki, która interpoluje między szumem Gaussa a rzeczywistymi danymi ruchu. Podczas treningu celem jest błąd średniokwadratowy między przewidywanymi a rzeczywistymi prędkościami wzdłuż tej ścieżki. Podczas wnioskowania, nauczone zwykłe równanie różniczkowe jest integrowane od szumu do czystej trajektorii, co zapewnia stabilny trening dla długich sekwencji i pasuje do architektury DiT.
Osobny moduł przewidywania czasu trwania i przepisywania podpowiedzi poprawia zgodność z instrukcjami. Wykorzystuje on Qwen3 30B A3B jako model bazowy i jest trenowany na syntetycznych podpowiedziach w stylu użytkownika, generowanych z podpisów ruchów za pomocą potoku VLM i LLM, np. Gemini 2.5 Pro. Moduł ten przewiduje odpowiedni czas trwania ruchu i przepisuje nieformalne podpowiedzi na znormalizowany tekst, który jest łatwiejszy do interpretacji dla DiT. Najpierw jest on trenowany z nadzorowanym dostrajaniem, a następnie udoskonalany za pomocą optymalizacji polityki grupowej (Group Relative Policy Optimization), używając Qwen3 235B A22B jako modelu nagród oceniającego spójność semantyczną i wiarygodność czasu trwania.
Trening odbywa się w trzech etapach. Etap 1 obejmuje wielkoskalowe wstępne trenowanie na pełnym zbiorze danych trwającym 3000 godzin, aby nauczyć się szerokiego priorytetu ruchu i podstawowego wyrównania tekstu z ruchem. Etap 2 dostraja model na 400-godzinnym zbiorze wysokiej jakości danych, aby poprawić szczegóły ruchu i poprawność semantyczną przy mniejszej szybkości uczenia. Etap 3 stosuje uczenie wzmacniające, najpierw Direct Preference Optimization, wykorzystując 9228 wyselekcjonowanych par preferencji ludzkich, próbkowanych z około 40 000 wygenerowanych par, a następnie Flow GRPO z złożoną nagrodą. Nagroda łączy wynik semantyczny z modelu Text Motion Retrieval i wynik fizyki, który penalizuje artefakty, takie jak ślizganie się stóp i dryf korzenia, z terminem regularyzacji KL, aby pozostać blisko modelu nadzorowanego.
Wyniki i wnioski
W celu oceny zespół stworzył zestaw testowy zawierający ponad 2000 podpowiedzi, obejmujących sześć kategorii taksonomicznych, w tym proste, współbieżne i sekwencyjne działania. Ludzcy oceniający punktowali zgodność z instrukcjami i jakość ruchu w skali od 1 do 5. HY-Motion 1.0 osiągnął średni wynik zgodności z instrukcjami 3,24 i wynik SSAE na poziomie 78,6%. Bazowe systemy text-to-motion, takie jak DART, LoM, GoToZero i MoMask, osiągnęły wyniki między 2,17 a 2,31 z SSAE między 42,7% a 58,0%. Pod względem jakości ruchu, HY-Motion 1.0 osiągnął średnio 3,43 w porównaniu do 3,11 dla najlepszych systemów bazowych.
Eksperymenty skalowania badały modele DiT z 0,05 mld, 0,46 mld, 0,46 mld (trenowane tylko na 400 godzinach) i 1 mld parametrów. Zgodność z instrukcjami systematycznie poprawiała się wraz z rozmiarem modelu, przy czym model 1B osiągnął średnio 3,34. Jakość ruchu osiągnęła nasycenie wokół skali 0,46 mld, gdzie modele 0,46 mld i 1B osiągnęły podobne średnie między 3,26 a 3,34. Porównanie modelu 0,46 mld trenowanego na 3000 godzinach i modelu 0,46 mld trenowanego tylko na 400 godzinach pokazuje, że większa objętość danych jest kluczem do wyrównania instrukcji, podczas gdy wysokiej jakości kuracja danych głównie poprawia realizm.
