R & DVideo

MiniMax Hailuo 02: Chińska potęga rzuca wyzwanie gigantom w generacji wideo. Ewolucja czy rewolucja?

Rynek generatywnej sztucznej inteligencji, a w szczególności segment wideo, dynamicznie ewoluuje. Na tym tle chińska firma MiniMax wprowadziła właśnie na rynek drugą generację swojego modelu AI do generowania wideo – Hailuo 02. Debiutuje on z ambitnymi deklaracjami o znaczącej poprawie zarówno wydajności, jak i efektywności kosztowej, rzucając wyzwanie dotychczasowym liderom, takim jak Google Veo 3.

Przełomowa architektura i wydajność

Kluczową innowacją w Hailuo 02 jest zastosowanie architektury o nazwie Noise-aware Compute Redistribution (NCR), która według MiniMax ma poprawiać efektywność trenowania i wnioskowania aż o 2,5 raza. Zasada działania NCR polega na adaptacyjnym przetwarzaniu długich sekwencji wideo w zależności od etapu trenowania. We wczesnych fazach, gdy do danych wprowadzany jest silny szum, filmy są maksymalnie kompresowane. W miarę postępu trenowania, gdy materiał staje się klarowniejszy, model przetwarza go w pełnej rozdzielczości. Choć MiniMax podkreśla znaczenie NCR, firma nie udostępniła dotąd szczegółowych danych technicznych na jej temat, co budzi pytania o transparentność.

Hailuo 02, w porównaniu do swojego poprzednika, charakteryzuje się trzykrotnie większą liczbą parametrów i czterokrotnie większym zestawem danych treningowych. MiniMax deklaruje również poprawę jakości i różnorodności tych danych, co ma przekładać się na lepszą zdolność modelu do obsługi złożonych poleceń i symulacji procesów fizycznych. Firma twierdzi, że Hailuo 02 jest obecnie jedynym modelem zdolnym do precyzyjnego generowania skomplikowanych scen, takich jak rutyny gimnastyczne. To śmiałe twierdzenie, wymagające niezależnej weryfikacji w szerszym zakresie.

Hailuo 02 w konfrontacji z Google Veo 3

Dostępny w trzech wariantach – 768p na sześć sekund, 768p na dziesięć sekund oraz 1080p na sześć sekund – Hailuo 02 rozszerza możliwości w stosunku do poprzednika, który był ograniczony do 720p i sześciu sekund przy 25 klatkach na sekundę.

W benchmarku Artificial Analysis Video Arena, gdzie użytkownicy oceniają wideo generowane przez różne modele AI, Hailuo 02 zajął drugie miejsce w kategorii obraz-na-wideo, ustępując jedynie Bytedance Seedance, ale wyprzedzając Google Veo 3. Warto jednak zaznaczyć, że testowana wersja Veo 3 nie obsługiwała dźwięku, co stanowi istotną część wartości tego modelu. Jest to istotny niuans, który utrudnia bezpośrednie porównanie, a ewentualna przewaga Hailuo 02 może być jedynie pozorna w kontekście pełnej funkcjonalności.

Od momentu demonstracyjnego uruchomienia w sierpniu ubiegłego roku, na platformie Hailuo wygenerowano ponad 3,7 miliarda filmów, co świadczy o masowej adopcji, choć MiniMax przyznaje, że początkowy debiut był chaotyczny.

Kwestia kosztów i dalszego rozwoju

Model jest dostępny poprzez interfejs webowy, aplikację mobilną oraz API. Dla użytkowników API, wygenerowanie sześciosekundowego wideo 768p kosztuje 0,28 USD, a wersja 1080p – 0,49 USD. Jest to znacznie niższa cena w porównaniu do Google Veo 3, gdzie ośmiosekundowe wideo 1080p może kosztować około 3 USD, w zależności od planu. Ta agresywna polityka cenowa może być kluczowym czynnikiem wpływającym na adopcję Hailuo 02 na szerszą skalę.

MiniMax deklaruje dalsze prace nad poprawą szybkości generowania, stabilności oraz dodawaniem nowych funkcji wykraczających poza obecne opcje tekst-na-wideo i obraz-na-wideo. Firmy takie jak Runway oferują już bardziej zaawansowane możliwości, takie jak śledzenie ujęć, co stawia MiniMax przed wyzwaniem nadgonienia konkurencji w zakresie innowacyjnych zastosowań.

Premiera Hailuo 02 jest częścią „MiniMax Week”, pięciodniowego wydarzenia, podczas którego chiński startup zaprezentował także otwarty model językowy, MiniMax-M1, wraz z liczbą parametrów i dokumentacją techniczną. Niestety, w przypadku Hailuo 02, szczegóły techniczne dotyczące architektury treningowej pozostają nieujawnione, co może budzić zaniepokojenie w środowisku badaczy i deweloperów, pragnących zrozumieć pełny potencjał i ograniczenia modelu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *