Gen AIR & D

Runway wchodzi do gry o modele świata. Firma prezentuje GWM-1 i udoskonala generowanie wideo

Nowy front w wyścigu AI: symulacja rzeczywistości

Firma Runway dołącza do nielicznego grona firm technologicznych, takich jak Google czy OpenAI, które pracują nad tak zwanymi modelami świata (world models). Jej propozycja, nazwana GWM-1, to system AI, którego celem nie jest jedynie generowanie obrazu, ale stworzenie wewnętrznej symulacji rządzącej się prawami fizyki. Taki model ma rozumieć, jak obiekty wchodzą ze sobą w interakcje i jak świat zachowuje się w czasie, co pozwala mu przewidywać rozwój wydarzeń klatka po klatce.

Anastasis Germanidis, CTO Runway, tłumaczy filozofię firmy: „Aby zbudować model świata, musieliśmy najpierw stworzyć naprawdę świetny model wideo. Wierzymy, że nauczenie modeli bezpośredniego przewidywania pikseli jest najlepszą drogą do osiągnięcia uniwersalnej symulacji”. To podejście sugeruje, że zaawansowana generacja wideo jest dla Runway nie celem samym w sobie, a jedynie krokiem w stronę znacznie większej ambicji – stworzenia systemów zdolnych do rozumowania, planowania i działania w oparciu o wewnętrzną reprezentację rzeczywistości.

Trzy oblicza GWM-1: od robotyki po awatary

Runway od razu przedstawiło trzy wyspecjalizowane warianty swojego modelu, które docelowo mają zostać połączone w jeden, uniwersalny system. Pierwszy z nich, GWM-Worlds, pozwala użytkownikom tworzyć interaktywne sceny na podstawie opisu tekstowego lub obrazu. System w czasie rzeczywistym generuje otoczenie w rozdzielczości 720p i 24 klatkach na sekundę, zachowując spójność geometrii, oświetlenia i fizyki. Potencjalne zastosowania wykraczają poza gry wideo i obejmują m.in. trenowanie autonomicznych agentów do poruszania się w realistycznym środowisku.

Drugi wariant, GWM-Robotics, ma służyć do generowania syntetycznych danych treningowych dla robotów. Umożliwia symulowanie różnorodnych warunków, takich jak zmienna pogoda czy nieoczekiwane przeszkody, co pozwala taniej i bezpieczniej uczyć maszyny. Co istotne, system może również pomóc w identyfikacji scenariuszy, w których roboty mogą naruszyć zasady bezpieczeństwa lub zignorować polecenia. Trzecia gałąź, GWM-Avatars, skupia się na tworzeniu realistycznych awatarów zdolnych do symulowania ludzkich zachowań, rzucając wyzwanie firmom takim jak Synthesia czy Soul Machines.

Gen 4.5 zyskuje głos i narrację

Równolegle do długofalowych badań nad GWM-1, Runway wprowadziło kluczową aktualizację swojego podstawowego narzędzia do generowania wideo. Model Gen 4.5 potrafi teraz tworzyć klipy o długości do jednej minuty, które zawierają natywnie generowany dźwięk – zarówno dialogi, jak i odgłosy tła. To fundamentalna zmiana, która przesuwa technologię z etapu prototypu w stronę narzędzia gotowego do produkcji.

Nowa wersja pozwala także na tworzenie złożonych, wieloujęciowych sekwencji z zachowaniem spójności postaci i obiektów między ujęciami. Użytkownicy mogą edytować istniejącą ścieżkę dźwiękową, dodawać dialogi i montować dłuższe formy. Te nowości stawiają Runway w bezpośredniej konkurencji z takimi rozwiązaniami jak chiński model Kling, sygnalizując, że rywalizacja na rynku wideo AI wchodzi w fazę walki o kompletne, wszechstronne narzędzia do opowiadania historii. Zaktualizowany model Gen 4.5 jest już dostępny dla wszystkich płacących użytkowników platformy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *