Video

Lumos-1: Alibaba prezentuje nowy generator wideo integrujący architektury LLM

W dynamicznie rozwijającej się dziedzinie generowania wideo, coraz większą rolę odgrywają modele autoregresywne. Ich zdolność do syntezowania klatek filmu na podstawie wyuczonych wzorców przestrzennych i czasowych, podobna do tej, w której duże modele językowe przewidują kolejne słowo, otwiera nowe możliwości. Celem jest unifikacja generowania wideo, obrazów i tekstu pod jednym dachem, wykorzystując potęgę architektur transformerowych.

Jednakże, ujarzmienie złożoności danych wideo, pełnych bogatych struktur czasowo-przestrzennych, pozostaje wyzwaniem. Tradycyjne metody treningowe, takie jak losowe maskowanie, często nie zapewniają zrównoważonych sygnałów uczenia, co prowadzi do utraty spójności i realizmu generowanych treści. Problemy pojawiają się również przy próbach adaptacji istniejących rozwiązań, które często odbiegają od standardowych architektur LLM, wprowadzając dodatkową złożoność czy opóźnienia w procesie generowania.

Zespoły badawcze z DAMO Academy, Hupan Lab należących do Alibaba Group oraz Uniwersytetu Zhejiang, zaprezentowały Lumos-1 – zunifikowany model do autoregresywnego generowania wideo. Kluczową innowacją jest zachowanie zgodności z architekturą dużych modeli językowych (LLM), eliminując potrzebę zewnętrznych koderów i minimalnie modyfikując oryginalny projekt LLM.

Sercem innowacji Lumos-1 jest zastosowanie MM-RoPE (Multi-Modal Rotary Position Embeddings), które w odmienny sposób niż dotychczasowe metody podchodzi do modelowania trójwymiarowej struktury wideo. MM-RoPE balansuje widmo częstotliwości dla wymiarów przestrzennych i czasowych, zapewniając adekwatną reprezentację dla czasu, wysokości i szerokości, co zapobiega utracie szczegółów czy niejednoznacznemu kodowaniu pozycji.

Równie istotnym elementem jest wprowadzenie AR-DF (Autoregressive Discrete Diffusion Forcing), które poprzez maskowanie temporalne podczas treningu, zapewnia równomierne uczenie w sekwencji wideo, zapobiegając nadmiernemu poleganiu na niemasowanych informacjach przestrzennych.

Lumos-1 został wytrenowany od podstaw na 60 milionach obrazów i 10 milionach filmów, wykorzystując zaledwie 48 procesorów graficznych. Efektywność pamięciowa tego procesu jest godna uwagi, biorąc pod uwagę skalę danych. Wyniki testów Lumos-1 są porównywalne z czołowymi modelami w branży. Na przykład, osiągnął rezultaty zbliżone do EMU3 w benchmarkach GenEval oraz do COSMOS-Video2World w teście VBench-I2V, a także konkurował z OpenSoraPlan w teście VBench-T2V. Te osiągnięcia podkreślają, że oszczędny trening Lumos-1 nie kompromituje jego konkurencyjności. Model obsługuje generowanie tekstu na wideo, obrazu na wideo oraz tekstu na obraz, co świadczy o jego zdolnościach multimodalnych.

Badania nad Lumos-1 skutecznie adresują kluczowe wyzwania w modelowaniu czasoprzestrzennym dla generacji wideo, jednocześnie ustanawiając nowy standard w zakresie efektywności i skuteczności w ramach autoregresywnych. Model ten utoruje drogę dla kolejnej generacji skalowalnych, wysokiej jakości modeli generacji filmów, otwierając zarazem nowe perspektywy dla przyszłych badań multimodalnych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *