ObrazR & D

Przełom MIT w generowaniu obrazów: Tokenizery zastępują generatory

Branża generowania obrazów AI, opierająca się na sieciach neuronowych do tworzenia wizualnych treści na podstawie, między innymi, promptów tekstowych, ma osiągnąć miliardowe przychody do końca tej dekady. Jednak tradycyjne systemy generujące obrazy wymagają tokenizerów do kompresji danych wizualnych oraz generatorów, które łączą i aranżują te skompresowane reprezentacje w celu tworzenia nowych obrazów. Trenowanie tych modeli generatywnych to proces czasochłonny i zasobochłonny, trwający tygodnie lub miesiące i pochłaniający ogromne ilości mocy obliczeniowej.

Przełomowe badania zaprezentowane na tegorocznej Międzynarodowej Konferencji Uczenia Maszynowego (ICML 2025) w Vancouver rzucają nowe światło na tę kwestię. Naukowcy z MIT opracowali metodę tworzenia, konwersji i uzupełniania obrazów bez użycia generatora. Wyniki ich pracy, opublikowane na serwerze preprintów arXiv, mogą radykalnie zmienić podejście do interpretacji i manipulowania treściami wizualnymi generowanymi przez sztuczną inteligencję.

Od projektu studenckiego do badań o dużym potencjale

Prace nad tym innowacyjnym podejściem rozpoczęły się od projektu zaliczeniowego w ramach seminarium magisterskiego dotyczącego głębokich modeli generatywnych. Temat zafascynował Lukasa Lao Beyera, doktoranta w Laboratorium Systemów Informacji i Decyzji (LIDS) MIT, oraz jego prowadzącego, profesora Kaiminga He. Wkrótce dołączyli do nich Tianhong Li z Laboratorium Informatyki i Sztucznej Inteligencji MIT (CSAIL), Xinlei Chen z Facebook AI Research oraz profesor Sertac Karaman, dyrektor LIDS.

Punktem wyjścia do badań była opublikowana w czerwcu 2024 roku praca naukowców z Politechniki Monachijskiej i chińskiej firmy ByteDance. Wprowadzili oni nową metodę reprezentacji informacji wizualnej, tak zwany jednowymiarowy tokenizer. To urządzenie, będące również rodzajem sieci neuronowej, potrafiło przetłumaczyć obraz o rozdzielczości 256×256 pikseli na sekwencję zaledwie 32 cyfr, zwanych tokenami. Lao Beyer dążył do zrozumienia, w jaki sposób osiągnięto tak wysoki poziom kompresji i co dokładnie reprezentują same tokeny.

Wcześniejsze tokenizery zazwyczaj dzieliły obraz na tablicę 16×16 tokenów, z których każdy zawierał skondensowane informacje odpowiadające konkretnej części oryginalnego obrazu. Nowe tokenizery 1D kodują obraz znacznie wydajniej, używając zdecydowanie mniejszej liczby tokenów, a co istotne, tokeny te są w stanie uchwycić informacje o całym obrazie, a nie tylko jego fragmencie. Każdy z tych tokenów to 12-cyfrowa liczba składająca się z 1 i 0, co daje 212 (około 4000) możliwych kombinacji.

Profesor He porównuje to do „słownika 4000 słów, które tworzą abstrakcyjny, ukryty język, którym posługuje się komputer. To nie jest język ludzki, ale możemy spróbować dowiedzieć się, co oznacza”.

Manipulacja tokenami a nowe możliwości edycji

Lao Beyer podjął się próby zrozumienia znaczenia poszczególnych tokenów, co stanowiło zalążek pracy przedstawionej na ICML 2025. Jego podejście było proste: „Jeśli chcesz dowiedzieć się, co potrafi dany token”, mówi Lao Beyer, „możesz go po prostu usunąć, wstawić losową wartość i sprawdzić, czy następuje zauważalna zmiana w wyniku”.

Odkrył, że zmiana jednego tokena wpływa na jakość obrazu, przekształcając obraz o niskiej rozdzielczości w obraz wysokiej rozdzielczości lub odwrotnie. Inny token wpływał na rozmycie tła, a jeszcze inny na jasność. Znalazł również token związany z „postawą”, co oznacza, że na przykład na obrazie rudzika głowa ptaka mogła przesuwać się z prawej na lewą stronę.

„To był nigdy wcześniej nieobserwowany wynik, ponieważ nikt nie zauważył wizualnie identyfikowalnych zmian wynikających z manipulacji tokenami”, podkreśla Lao Beyer. Te odkrycia otworzyły możliwości dla nowego podejścia do edycji obrazów. Grupa z MIT wykazała, jak ten proces można usprawnić i zautomatyzować, eliminując potrzebę ręcznej modyfikacji tokenów.

Generowanie bez generatora

Naukowcy osiągnęli jeszcze bardziej doniosły rezultat w dziedzinie generowania obrazów. Ich nowe podejście wykorzystuje tokenizer 1D i tak zwany detokenizer (znany również jako dekoder), który potrafi zrekonstruować obraz z ciągu tokenów. Co jednak istotne, dzięki wskazówkom dostarczonym przez gotową sieć neuronową o nazwie CLIP (która sama nie potrafi generować obrazów, ale może mierzyć, jak dobrze dany obraz pasuje do określonego promptu tekstowego), zespół był w stanie przekształcić na przykład wizerunek pandy rudej w obraz tygrysa.

Co więcej, możliwe stało się tworzenie obrazów tygrysa lub dowolnej innej pożądanej formy całkowicie od podstaw – począwszy od sytuacji, w której wszystkie tokeny mają początkowo przypisane losowe wartości, a następnie są iteracyjnie dostosowywane tak, aby zrekonstruowany obraz coraz bardziej odpowiadał pożądanemu promptowi tekstowemu.

Zespół zademonstrował również, że dzięki tej samej konfiguracji – opierającej się wyłącznie na tokenizerze i detokenizerze, bez generatora – możliwe jest „uzupełnianie” obrazów, czyli wypełnianie ich brakujących części. Unikanie użycia generatora w pewnych zadaniach może prowadzić do znacznego zmniejszenia kosztów obliczeniowych, ponieważ generatory, jak wspomniano, zazwyczaj wymagają rozległego treningu.

„To, co może wydawać się dziwne w wkładzie tego zespołu”, wyjaśnia He, „to fakt, że nie wymyśliliśmy niczego nowego. Nie wymyśliliśmy tokenizera 1D ani modelu CLIP. Ale odkryliśmy, że nowe możliwości mogą pojawić się, gdy połączy się wszystkie te elementy w spójny ekosystem”.

Implikacje i przyszłość

Saining Xie, informatyk z New York University, komentuje: „Ta praca redefiniuje rolę tokenizerów. Pokazuje, że tokenizery obrazów – narzędzia zwykle używane jedynie do kompresji obrazów – mogą w rzeczywistości robić znacznie więcej. Fakt, że prosty (ale wysoce skompresowany) tokenizer 1D może obsługiwać zadania takie jak uzupełnianie obrazów lub edycja kierowana tekstem, bez potrzeby trenowania pełnowymiarowego modelu generatywnego, jest dość zaskakujący”.

Zhuang Liu z Princeton University zgadza się, twierdząc, że praca grupy z MIT „pokazuje, że możemy generować i manipulować obrazami w sposób znacznie łatwiejszy niż wcześniej sądzono. Zasadniczo pokazuje to, że generowanie obrazów może być efektem ubocznym bardzo efektywnego kompresora obrazów, potencjalnie zmniejszając koszt generowania obrazów kilkukrotnie”.

Profesor Karaman sugeruje natomiast, że zastosowania tej technologii mogą wykraczać poza dziedzinę widzenia komputerowego. „Na przykład, moglibyśmy rozważyć tokenizowanie działań robotów lub samochodów autonomicznych w ten sam sposób, co może szybko poszerzyć wpływ tej pracy”. Lao Beyer zauważa również, że ekstremalna kompresja oferowana przez tokenizery 1D pozwala na „niesamowite rzeczy”, które można zastosować w innych dziedzinach, takich jak samochody autonomiczne. W tym przypadku tokeny mogłyby reprezentować, zamiast obrazów, różne trasy, które mógłby obrać pojazd.

Innowacyjne podejście naukowców z MIT do generowania obrazów bez generatorów stanowi znaczący krok naprzód w dziedzinie sztucznej inteligencji. Przez wykorzystanie istniejących technologii w nowy sposób, otworzyli drzwi do bardziej efektywnych, tańszych i wszechstronnych zastosowań AI w przetwarzaniu i manipulacji danymi wizualnymi. Pozostaje jedynie obserwować, jakie dalsze „fajne przypadki użycia” ta nowa metoda odblokuje.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *