ObrazVideo

Midjourney wkracza do świata wideo: pierwsza wersja modelu przekształca obrazy w krótkie klipy

Midjourney, znane dotychczas z zaawansowanych możliwości generowania obrazów, rozszerza swoje portfolio o funkcje wideo. Uruchomienie modelu, nazwanego „Image-to-Video”, umożliwia użytkownikom przekształcanie statycznych grafik w krótkie klipy filmowe. Jest to, jak podkreślają twórcy, wczesny etap w realizacji ambitnej wizji budowania systemów AI zdolnych do symulowania kompletnych światów 3D w czasie rzeczywistym.

Zasada działania i elastyczność

Nowa funkcja integruje się z interfejsem webowym Midjourney poprzez przycisk „Animate”. Użytkownicy mają do wyboru dwa tryby animacji: automatyczny, w którym system samodzielnie określa ruch, oraz manualny, dający większą kontrolę nad dynamiką sceny poprzez tekstowe opisy. Dostępne są również ustawienia intensywności ruchu: „Low motion” do statycznych ujęć i powolnych scen, oraz „High motion” angażujący zarówno kamerę, jak i obiekt, choć Midjourney zaznacza, że ten drugi może generować mniej precyzyjne rezultaty.

Każdy wygenerowany klip może być wydłużony o około cztery sekundy, maksymalnie czterokrotnie, co pozwala na stopniowe rozbudowywanie narracji. Co istotne, platforma umożliwia również animowanie obrazów spoza Midjourney – wystarczy przeciągnąć plik graficzny do paska promptów i oznaczyć go jako „Start Frame”, a następnie opisać pożądany ruch za pomocą promptu tekstowego.

Ograniczenia techniczne i model kosztów

Obecnie Midjourney nie udostępniło oficjalnych specyfikacji technicznych, takich jak rozdzielczość, liczba klatek na sekundę czy bitrate dla generowanych wideo. Z pobranych plików wynika, że filmy mają rozdzielczość 480p w formacie MP4 i klatkaż 24 kl./s, bez wbudowanego upscalingu. To sugeruje, że Midjourney koncentruje się na funkcjonalności animacji, odkładając optymalizację jakości wideo na późniejszy etap.

Koszty generowania wideo są znacząco wyższe niż w przypadku obrazów. Jedno zadanie wideo kosztuje około ośmiokrotnie więcej niż zadanie obrazowe, generując cztery klipy po pięć sekund. W praktyce oznacza to koszt równy jednemu odpowiednikowi obrazu na sekundę wideo. Firma twierdzi, że jest to około 25 razy taniej niż w konkurencyjnych serwisach, choć konkrety w tej kwestii są wciąż niejasne. Dla subskrybentów poziomu „Pro” i wyższych, Midjourney testuje tryb „Video Relax Mode”, który pozwala generować wideo bez zużycia szybkich minut, co może obniżyć koszty końcowe.

Wizja przyszłości i wyzwania rynkowe

David Holz, założyciel Midjourney, określa obecny model wideo jako niezbędny krok pośredni w kierunku bardziej zaawansowanych systemów. Docelowo firma planuje połączenie modeli wideo, elementów 3D i przetwarzania w czasie rzeczywistym w ujednoliconą platformę, mającą na celu realizację wizji symulacji światów. Wiedza zdobyta podczas rozwijania modelu wideo ma również wzbogacić istniejące narzędzia do generowania obrazów.

Na rynku AI wideo konkurencja jest już intensywna. Google ze swoim modelem Veo 3 jest postrzegane jako lider, oferując generowanie wideo bezpośrednio z promptów tekstowych oraz możliwość dodawania głosów i efektów dźwiękowych. To stawia Midjourney w pozycji nadrabiania zaległości w zakresie kompleksowości i zaawansowania generowanych materiałów.

Wyzwania prawne i etyczne

Równolegle z rozwojem technologicznym, Midjourney boryka się z narastającymi problemami prawnymi. Disney i Universal wniosły wspólny pozew przeciwko firmie, argumentując, że narzędzie AI generuje nieautoryzowane wizerunki postaci objętych prawami autorskimi, takich jak Darth Vader czy Minionki. Zarzut dotyczy powielania chronionych materiałów pomimo wcześniejszych ostrzeżeń.

Studia domagają się odszkodowań, procesu z udziałem ławy przysięgłych oraz sądowego zakazu przyszłego wykorzystywania zastrzeżonych postaci. Podobne spory prawne, dotyczące naruszania praw autorskich, towarzyszą Midjourney już od 2023 roku. Firma nie skomentowała publicznie ostatnich zarzutów, a kwestia danych treningowych użytych do stworzenia nowego modelu wideo pozostaje nieznana. Ten aspekt rzuca cień na transparentność działań Midjourney i stawia platformę w obliczu trudnych wyzwań regulacyjnych, które mogą wpłynąć na jej przyszły rozwój i przyjęcie na rynku.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *