Świecący mózg ze skrzydłami z piór, symbolizujący zrównoważone uczenie się i przetwarzanie multimodalne.

WINGS: Nowe podejście do walki z „zapominaniem tekstowym” w multimodalnych modelach językowych

2025-07-02 AI Sight

Rozwój dużych modeli językowych (LLM) w kierunku obsługi wielu modalności, zwłaszcza obrazu i tekstu, przyniósł znaczące postępy. Multimodalne modele językowe (MLLM) potrafią interpretować obrazy, odpowiadać na pytania dotyczące wizualnego kontekstu i prowadzić dialogi łączące informacje tekstowe i graficzne. Ich zdolność do rozumowania w domenach wizualnej i lingwistycznej czyni je niezmiernie cennymi w zastosowaniach takich jak edukacja, generowanie treści czy interaktywne asystenty.

Wyzwanie zapominania tekstowego

Integracja wizji z LLM nie obyła się jednak bez wyzwań. Kiedy MLLM są trenowane na zestawach danych zawierających zarówno obrazy, jak i tekst, często tracą dotychczasową biegłość w zadaniach czysto tekstowych. To zjawisko, nazywane „zapominaniem tekstowym” (text-only forgetting), wynika z faktu, że tokeny wizualne, włączone do sekwencji językowej, odwracają uwagę modelu od samego tekstu. W rezultacie MLLM zaczyna priorytetyzować treści związane z obrazem, co prowadzi do drastycznego spadku wydajności w zadaniach wymagających wyłącznie rozumienia języka, np. w podstawowym rozumowaniu, interpretacji czy tekstowych pytaniach i odpowiedziach.

Ograniczenia dotychczasowych rozwiązań

Istniejące strategie mające na celu złagodzenie tego problemu często są niewystarczające. Niektóre metody polegają na ponownym wprowadzeniu dużej ilości danych tekstowych podczas treningu, inne zaś na naprzemiennym dostrajaniu tekstu i multimediów. Chociaż te podejścia mają przypomnieć modelowi o jego pierwotnych zdolnościach językowych, często wiążą się z wysokimi kosztami treningu, skomplikowaną logiką przełączania podczas wnioskowania lub nie są w stanie w pełni przywrócić rozumienia tekstu. Problem w dużej mierze wynika ze sposobu, w jaki uwaga modelu ulega przesunięciu po wprowadzeniu tokenów obrazu do sekwencji.

WINGS: dwumodułowe podejście od Alibaba i Nanjing University

W odpowiedzi na to wyzwanie, naukowcy z zespołu AI Business Alibaba Group oraz Nanjing University zaproponowali innowacyjne rozwiązanie o nazwie WINGS. Architektura ta dodaje dwa nowe moduły – uczące się wizualnie i tekstowo – do każdej warstwy MLLM. Moduły te działają równolegle z głównym mechanizmem uwagi modelu, przypominając „skrzydła” przymocowane po obu stronach warstw uwagi. Komponent routingu kontroluje, ile uwagi każdy uczący się moduł otrzymuje, w zależności od bieżącej mieszanki tokenów, co pozwala modelowi dynamicznie równoważyć skupienie między informacjami wizualnymi a tekstowymi.

LoRRA: efektywność i świadomość modalności

Architektura WINGS wykorzystuje mechanizm o nazwie Low-Rank Residual Attention (LoRRA), który utrzymuje lekkie obliczenia, jednocześnie umożliwiając modułom wychwytywanie istotnych informacji specyficznych dla modalności. W pierwszym etapie treningu aktywowane są tylko moduły wizualne w celu wyrównania cech obrazu. W drugim etapie, zarówno moduły wizualne, jak i tekstowe są trenowane wspólnie z modułem routera, który wykorzystuje wagi uwagi do przypisywania odpowiedzialności. Każdy moduł wykorzystuje wydajne bloki uwagi do interakcji albo z obrazem, albo z otaczającym tekstem, a ich wyjścia są łączone z wyjściami głównego modelu. Takie podejście gwarantuje, że uwaga wizualna nie przytłoczy rozumienia tekstu.

Wyniki WINGS w testach wydajnościowych

WINGS wykazał znaczącą poprawę w testach wydajnościowych. Na zbiorze danych MMLU osiągnął wynik 60.53 dla zadań tekstowych, co stanowi poprawę o 9.70 punktu w porównaniu do podobnego modelu bazowego. Dla CMMLU wynik wyniósł 69.82, czyli o 9.36 punktu więcej. W zadaniach rozumowania, takich jak Race-High, zyskał 11.9 punktu, a w WSC odnotowano poprawę o 11.12 punktu. W multimodalnych benchmarkach, jak MMMU-VAL, WINGS osiągnął poprawę o 4.78 punktu. Model ten wykazał również solidne wyniki w benchmarku IIT, skuteczniej niż inne otwartokodowe MLLM w tej samej skali radząc sobie z mieszanymi dialogami wieloetapowymi wymagającymi zarówno tekstu, jak i obrazu.

Wnioski: ku bardziej zrównoważonym MLLM

Badania nad WINGS stanowią istotny krok naprzód w rozwiązaniu problemu katastrofalnego zapominania tekstowego w MLLM. Wprowadzając architekturę z dedykowanymi modułami wizualnymi i tekstowymi oraz inteligentnym routingiem uwagi, naukowcy utrzymali kluczową wydajność tekstową, jednocześnie poprawiając zrozumienie wizualne. To innowacyjne podejście oferuje bardziej zrównoważony i efektywny model multimodalny, który może stać się fundamentem dla nowej generacji bardziej wszechstronnej sztucznej inteligencji.

Wyzwanie zapominania tekstowego

Ograniczenia dotychczasowych rozwiązań

WINGS: dwumodułowe podejście od Alibaba i Nanjing University

LoRRA: efektywność i świadomość modalności

Wyniki WINGS w testach wydajnościowych

Wnioski: ku bardziej zrównoważonym MLLM

Udostępnij:

Zobacz również

Nebius i Llama 3: Konstruowanie zaawansowanych agentów AI z rozszerzoną logiką

ServiceNow Research udostępnia DRBench — benchmark dla „głębokich badań” w środowisku korporacyjnym

Alibaba Qwen wypuszcza modele Qwen3-Next-80B-A3B w wersji FP8, celując w wysoką przepustowość i długi kontekst

Dodaj komentarz Anuluj pisanie odpowiedzi