WINGS: Nowe podejście do walki z „zapominaniem tekstowym” w multimodalnych modelach językowych
Rozwój dużych modeli językowych (LLM) w kierunku obsługi wielu modalności, zwłaszcza obrazu i tekstu, przyniósł znaczące postępy. Multimodalne modele językowe (MLLM) potrafią interpretować obrazy, odpowiadać na pytania dotyczące wizualnego kontekstu i prowadzić dialogi łączące informacje tekstowe i graficzne. Ich zdolność do rozumowania w domenach wizualnej i lingwistycznej czyni je niezmiernie cennymi w zastosowaniach takich jak edukacja, generowanie treści czy interaktywne asystenty.
Wyzwanie zapominania tekstowego
Integracja wizji z LLM nie obyła się jednak bez wyzwań. Kiedy MLLM są trenowane na zestawach danych zawierających zarówno obrazy, jak i tekst, często tracą dotychczasową biegłość w zadaniach czysto tekstowych. To zjawisko, nazywane „zapominaniem tekstowym” (text-only forgetting), wynika z faktu, że tokeny wizualne, włączone do sekwencji językowej, odwracają uwagę modelu od samego tekstu. W rezultacie MLLM zaczyna priorytetyzować treści związane z obrazem, co prowadzi do drastycznego spadku wydajności w zadaniach wymagających wyłącznie rozumienia języka, np. w podstawowym rozumowaniu, interpretacji czy tekstowych pytaniach i odpowiedziach.
Ograniczenia dotychczasowych rozwiązań
Istniejące strategie mające na celu złagodzenie tego problemu często są niewystarczające. Niektóre metody polegają na ponownym wprowadzeniu dużej ilości danych tekstowych podczas treningu, inne zaś na naprzemiennym dostrajaniu tekstu i multimediów. Chociaż te podejścia mają przypomnieć modelowi o jego pierwotnych zdolnościach językowych, często wiążą się z wysokimi kosztami treningu, skomplikowaną logiką przełączania podczas wnioskowania lub nie są w stanie w pełni przywrócić rozumienia tekstu. Problem w dużej mierze wynika ze sposobu, w jaki uwaga modelu ulega przesunięciu po wprowadzeniu tokenów obrazu do sekwencji.
WINGS: dwumodułowe podejście od Alibaba i Nanjing University
W odpowiedzi na to wyzwanie, naukowcy z zespołu AI Business Alibaba Group oraz Nanjing University zaproponowali innowacyjne rozwiązanie o nazwie WINGS. Architektura ta dodaje dwa nowe moduły – uczące się wizualnie i tekstowo – do każdej warstwy MLLM. Moduły te działają równolegle z głównym mechanizmem uwagi modelu, przypominając „skrzydła” przymocowane po obu stronach warstw uwagi. Komponent routingu kontroluje, ile uwagi każdy uczący się moduł otrzymuje, w zależności od bieżącej mieszanki tokenów, co pozwala modelowi dynamicznie równoważyć skupienie między informacjami wizualnymi a tekstowymi.
LoRRA: efektywność i świadomość modalności
Architektura WINGS wykorzystuje mechanizm o nazwie Low-Rank Residual Attention (LoRRA), który utrzymuje lekkie obliczenia, jednocześnie umożliwiając modułom wychwytywanie istotnych informacji specyficznych dla modalności. W pierwszym etapie treningu aktywowane są tylko moduły wizualne w celu wyrównania cech obrazu. W drugim etapie, zarówno moduły wizualne, jak i tekstowe są trenowane wspólnie z modułem routera, który wykorzystuje wagi uwagi do przypisywania odpowiedzialności. Każdy moduł wykorzystuje wydajne bloki uwagi do interakcji albo z obrazem, albo z otaczającym tekstem, a ich wyjścia są łączone z wyjściami głównego modelu. Takie podejście gwarantuje, że uwaga wizualna nie przytłoczy rozumienia tekstu.
Wyniki WINGS w testach wydajnościowych
WINGS wykazał znaczącą poprawę w testach wydajnościowych. Na zbiorze danych MMLU osiągnął wynik 60.53 dla zadań tekstowych, co stanowi poprawę o 9.70 punktu w porównaniu do podobnego modelu bazowego. Dla CMMLU wynik wyniósł 69.82, czyli o 9.36 punktu więcej. W zadaniach rozumowania, takich jak Race-High, zyskał 11.9 punktu, a w WSC odnotowano poprawę o 11.12 punktu. W multimodalnych benchmarkach, jak MMMU-VAL, WINGS osiągnął poprawę o 4.78 punktu. Model ten wykazał również solidne wyniki w benchmarku IIT, skuteczniej niż inne otwartokodowe MLLM w tej samej skali radząc sobie z mieszanymi dialogami wieloetapowymi wymagającymi zarówno tekstu, jak i obrazu.
Wnioski: ku bardziej zrównoważonym MLLM
Badania nad WINGS stanowią istotny krok naprzód w rozwiązaniu problemu katastrofalnego zapominania tekstowego w MLLM. Wprowadzając architekturę z dedykowanymi modułami wizualnymi i tekstowymi oraz inteligentnym routingiem uwagi, naukowcy utrzymali kluczową wydajność tekstową, jednocześnie poprawiając zrozumienie wizualne. To innowacyjne podejście oferuje bardziej zrównoważony i efektywny model multimodalny, który może stać się fundamentem dla nowej generacji bardziej wszechstronnej sztucznej inteligencji.
