Gen AILLMObrazR & D

Mirage: Myślenie wizualne w modelach wielomodalnych bez generowania obrazów

Współczesne wielomodalne modele językowe (VLM) z powodzeniem integrują informacje tekstowe i wizualne. Mimo to, w momentach wymagających głębszego rozumowania, często polegają wyłącznie na przetwarzaniu tekstu. Ogranicza to ich zdolność do rozwiązywania problemów wymagających myślenia wizualnego, takich jak przestrzenne łamigłówki, gdzie człowiek naturalnie wyobraża sobie rozwiązania, zamiast opisywać każdy szczegół. Chociaż niektóre z najnowszych modeli potrafią generować zarówno tekst, jak i obrazy, często odbywa się to kosztem ich zdolności do logicznego rozumowania. Co więcej, sam proces generowania obrazów nie wspiera krokowego wizualnego myślenia, co stanowi barierę w pełnym wykorzystaniu potencjału VLM w złożonym, ugruntowanym wizualnie rozumowaniu.

Metody takie jak Chain-of-Thought (CoT) od dawna zachęcają modele do sekwencyjnego rozwiązywania problemów, wykorzystując przykłady z pośrednimi wyjaśnieniami. Pomysł ten został rozszerzony na zadania wielomodalne, gdzie informacje wizualne są włączane w strumień rozumowania. Techniki takie jak ICoT osadzają fragmenty obrazów w sekwencjach tekstowych, a Visual CoT wykorzystuje adnotacje wizualne do treningu modeli, poprawiając ich rozumienie przestrzenne. Choć istnieją modele zdolne do jednoczesnego generowania tekstu i obrazów, ich tworzenie wiąże się z wysokim nadzorem i znacznymi kosztami obliczeniowymi. Równolegle, badacze eksplorują sposoby na wewnętrzne osadzanie rozumowania w modelach poprzez kierowanie ich ukrytymi stanami, wykorzystując specjalne tokeny lub utajone reprezentacje zamiast jawnych kroków rozumowania.

Mirage: Przełom w wizualnym rozumowaniu

Badacze z University of Massachusetts Amherst i MIT zaproponowali nowatorskie podejście, nazwane Mirage, które czerpie inspirację z ludzkiej zdolności do tworzenia mentalnych obrazów – prostych, istotnych dla zadania wizualizacji, pojawiających się podczas myślenia. Mirage umożliwia modelom VLM wplatanie wizualnego rozumowania bezpośrednio w ich tekstowe wyjścia, bez konieczności generowania pełnych obrazów. Zamiast tego, model wstawia kompaktowe wskazówki wizualne, wywiedzione z wewnętrznych stanów. Proces treningu Mirage składa się z dwóch faz: początkowo wykorzystuje się zarówno nadzór tekstowy, jak i wizualny, następnie przechodzi się na fazę z nadzorem wyłącznie tekstowym. Dodatkowo, uczenie wzmacniające (reinforcement learning) dalej doskonali zdolności rozumowania modelu. Mirage pozwala modelom VLM myśleć w sposób bardziej zbliżony do ludzkiego, co w konsekwencji poprawia ich wydajność w złożonych, wielomodalnych zadaniach.

Architektura i trening

Mirage to framework, który wykorzystuje utajone tokeny – skompresowane cechy wizualne – w procesie rozumowania. W pierwszej fazie treningu, te utajone tokeny są ugruntowywane za pomocą pomocniczych obrazów i współdzielonego nadzoru. Następnie, to ograniczenie jest luzowane, pozwalając modelowi generować własne utajone tokeny i wykorzystywać je do kierowania rozumowaniem. Takie rozwiązanie umożliwia przeplatane rozumowanie wielomodalne. Etap uczenia wzmacniającego dodatkowo dostraja model, wykorzystując nagrody za poprawność odpowiedzi i strukturyzację procesów myślowych, co promuje zarówno trafne rozwiązania, jak i uporządkowane myślenie.

Badanie ocenia model na czterech zadaniach związanych z rozumowaniem przestrzennym, takich jak łamigłówki wizualne i problemy geometryczne, wykorzystując niewielki zbiór danych treningowych liczący 1000 próbek. Aby wspierać rozumowanie, model generuje syntetyczne obrazy pomocnicze i kroki myślowe, naśladując sposób, w jaki ludzie używają szkiców i wskazówek do ułatwienia procesów myślowych. Model Mirage konsekwentnie przewyższa zarówno modele bazowe oparte wyłącznie na tekście, jak i te wielomodalne, nawet w zadaniach wymagających złożonego planowania, takich jak rozwiązywanie labiryntów. Mniejsza wersja modelu również osiąga silne wyniki, co dowodzi odporności metody. Badania ablacyjne potwierdzają, że kluczowe jest początkowe ugruntowanie utajonych tokenów wizualnych, po którym następuje elastyczny trening. Ogólnie rzecz biorąc, przeplatanie rozumowania wizualnego i tekstowego bez rzeczywistych obrazów zwiększa zarówno zrozumienie, jak i dokładność.

Wyzwania i przyszłość

Badanie Mirage stanowi istotny krok naprzód, oferując lekkie podejście, które pozwala VLM myśleć wizualnie bez generowania rzeczywistych obrazów. Poprzez przeplatanie kompaktowych wskazówek wizualnych z tekstem podczas dekodowania, model uczy się rozumieć wielomodalnie w dwufazowym procesie treningu: najpierw zakotwicza te wskazówki w rzeczywistych cechach obrazu, a następnie pozwala im swobodnie ewoluować, aby wspierać rozumowanie. Ostateczny etap uczenia wzmacniającego wyostrza wydajność. Chociaż przetestowane na zadaniach rozumowania przestrzennego, metoda konsekwentnie przewyższa tradycyjne modele tekstowe, pozostają wyzwania związane ze skalowaniem na inne zadania i poprawą jakości syntetycznych danych treningowych. Przyszłość pokaże, czy Mirage zdoła wypełnić lukę między ludzkim myśleniem wizualnym a możliwościami komputerowymi, otwierając drogę do bardziej zaawansowanych i intuicyjnych systemów AI.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *