Video

Lightricks LTX-2: rewolucja w generowaniu wideo AI z otwartym kodem źródłowym

Lightricks, znany innowator w dziedzinie technologii kreatywnych, zaprezentował swój najnowszy model fundacyjny oparty na sztucznej inteligencji: LTX-2. Zaprojektowany z myślą o przyspieszeniu i usprawnieniu procesu tworzenia wideo, LTX-2 wyróżnia się zdolnością do generowania treści o wysokiej rozdzielczości z niespotykaną dotąd prędkością, oferując jednocześnie zintegrowane możliwości audio i otwarty kod źródłowy.

Kluczową innowacją LTX-2 jest jego wydajność. Model jest w stanie wygenerować sześciosekundowe, stylizowane wideo w wysokiej rozdzielczości w zaledwie pięć sekund, nie kompromitując przy tym jakości. Co więcej, Lightricks twierdzi, że użytkownicy mogą podnieść jakość wyjściową do rozdzielczości 4K przy 48 klatkach na sekundę, czekając jedynie kilka sekund dłużej. Otwarty charakter LTX-2 oraz możliwość uruchamiania go na konsumenckich kartach graficznych znacząco obniżają koszty obliczeniowe, co demokratyzuje dostęp do zaawansowanych narzędzi do tworzenia wideo.

Modele dyfuzyjne wkraczają w nową erę

LTX-2 to przykład modelu dyfuzyjnego, technologii, która polega na stopniowym dodawaniu „szumu” do generowanego obrazu, a następnie jego redukcji, aż do uzyskania pożądanego efektu. Lightricks znacząco przyspieszył ten proces, umożliwiając twórcom niemal natychmiastowe podglądy na żywo. Jedną z najbardziej przełomowych funkcji jest jednoczesne generowanie ścieżek audio – czy to muzyki, dialogów, czy efektów dźwiękowych. To znacząco usprawnia workflow, eliminując potrzebę oddzielnego tworzenia i synchronizowania dźwięku, co dotychczas było czasochłonnym zadaniem. Ta integracja stawia LTX-2 na równi z pionierskimi rozwiązaniami, takimi jak modele Veo firmy Google, które zdobyły uznanie za potężną integrację generowania zsynchronizowanego dźwięku.

Elastyczność i profesjonalne standardy

Dla profesjonalistów LTX-2 oferuje platformę LTX Studio, która, choć może wymagać nieco dłuższego czasu przetwarzania dla najwyższej jakości, umożliwia tworzenie filmów w natywnej rozdzielczości 4K przy 48 klatkach na sekundę. To standard oczekiwany w produkcjach kinowych. Platforma zapewni szeroki zakres kontroli kreatywnych, w tym kontrolę nad pozami i głębią, generowanie wideo na podstawie wideo oraz alternatywne tryby renderowania, z dalszymi szczegółami planowanymi na jesień.

Zeev Farbman, współzałożyciel i dyrektor generalny Lightricks, podkreśla, że LTX-2 świadczy o dojrzewaniu modeli dyfuzyjnych. Określa go jako „najbardziej kompletny i wszechstronny silnik kreatywnej sztucznej inteligencji, jaki kiedykolwiek zbudowaliśmy, łączący zsynchronizowane audio i wideo, wierność 4K, elastyczne przepływy pracy i radykalną wydajność”. Farbman kategorycznie zaznacza, że to „prawdziwy przełom w generowaniu wideo”, a nie jedynie „produkt koncepcyjny czy demonstracja badawcza”.

Kamienie milowe w rozwoju AI wideo Lightricks

LTX-2 stanowi kontynuację innowacji Lightricks w dziedzinie generowania wideo AI. Poprzednie modele z rodziny LTXV, w tym LTXV-2B i LTXV-13B, były pionierami w generowaniu długich form wideo, z możliwością tworzenia do 60 sekund klipów. Umożliwiało to „kierowaną” produkcję wideo AI, gdzie użytkownicy mogli modyfikować rezultaty w czasie rzeczywistym. Model 13B, wcześniej uznawany za jeden z najpotężniejszych, wprowadził wieloskalowe renderowanie, analogiczne do technik warstwowania stosowanych przez profesjonalnych animatorów.

Co istotne, model 13B został wytrenowany na licencjonowanych danych z Getty i Shutterstock. Współpraca z gigantami treści jest nie tylko gwarancją wysokiej jakości danych treningowych, ale także, co ważne, rozwiązuje kwestie etyczne i prawne związane z prawami autorskimi, które często są problemem w implementacjach innych modeli AI.

Lightricks stworzyło również destylowaną wersję LTXV-13B, która upraszcza i przyspiesza proces dyfuzji, umożliwiając generowanie treści w zaledwie 4-8 krokach. Ta wersja obsługuje również LoRA (Low-Rank Adaptation), co pozwala użytkownikom na dostosowywanie modelu do konkretnych stylów estetycznych.

Innowacyjny model rozliczeniowy i dostępność

Podobnie jak poprzednie modele, LTX-2 zostanie wydany na licencji open-source, stanowiąc realną alternatywę dla rozwiązań komercyjnych. Lightricks podkreśla prawdziwie otwarty charakter projektu, co oznacza, że wstępnie wytrenowane wagi, zestawy danych i narzędzia będą dostępne na GitHubie wraz z samym modelem. Obecnie LTX-2 jest dostępny w LTX Studio i poprzez API, a otwarta wersja źródłowa ma zostać udostępniona w listopadzie.

Dla użytkowników preferujących płatną wersję API, Lightricks oferuje elastyczne modele cenowe. Wideoklipy HD generowane w pięć sekund kosztują od 0,04 USD za sekundę. Wersja Pro, równoważąca szybkość z wydajnością, kosztuje od 0,07 USD za sekundę, natomiast wersja Ultra, oferująca wideo 4K przy 48 klatkach na sekundę z pełną wiernością audio, to koszt 0,12 USD za sekundę. Ceny różnią się również w zależności od rozdzielczości, z opcjami 720p, 1080p, 2K i 4K.

Lightricks twierdzi, że dzięki efektywności przetwarzania ich model jest nawet o 50% tańszy niż konkurencyjne rozwiązania, co czyni rozbudowane projekty bardziej ekonomicznie opłacalnymi, jednocześnie oferując szybsze iteracje i wyższą jakość niż poprzednie generacje. Alternatywnie, po listopadowej premierze na GitHubie, użytkownicy będą mogli pobrać otwartą wersję i uruchamiać ją na konsumenckich procesorach graficznych, co świadczy o zaangażowaniu Lightricks w demokratyzację dostępu do zaawansowanych możliwości AI wideo.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *