Rozumowanie

Miraż multimodalności: Dlaczego modele AI opisują obrazy, których nigdy nie widziały?

W sektorze sztucznej inteligencji panuje przekonanie, że wysokie wyniki w benchmarkach wizualnych są bezpośrednim dowodem na rosnące kompetencje modeli multimodalnych. Najnowsze odkrycia badaczy z Uniwersytetu Stanforda rzucają jednak cień na te optymistyczne założenia. Okazuje się, że flagowe systemy, takie jak GPT-5, Gemini 3 Pro czy Claude Opus 4.5, cierpią na tak zwany efekt mirażu – zjawisko, w którym model konstruuje fałszywą ramę poznawczą i zachowuje się tak, jakby analizował dane wizualne, podczas gdy w rzeczywistości polega wyłącznie na wzorcach tekstowych.

Pułapka fałszywej percepcji

Efekt mirażu różni się od klasycznych halucynacji. Podczas gdy halucynacja to błąd wewnątrz poprawnego kontekstu (np. zmyślone nazwisko w prawdziwym artykule), miraż polega na stworzeniu kompletnej narracji bez jakichkolwiek podstaw wejściowych. Modele nie tylko „zgadują” treść niewidocznego obrazu, ale budują wokół niego logicznie spójne uzasadnienia, przekonując użytkownika o swojej rzekomej spostrzegawczości.

Skalę problemu obnażył eksperyment Phantom-0. Naukowcy przedstawili modelom 200 pytań dotyczących wizualizacji, celowo nie dołączając żadnych obrazów. Wyniki są uderzające: w ponad 60% przypadków systemy typu frontier z pełnym przekonaniem opisywały nieistniejące detale. Co więcej, gdy do promptów dodano instrukcje typowe dla standardowych procedur testowych, wskaźnik konfabulacji wzrastał niemal do 100%. Modele AI po prostu nie potrafiły przyznać, że są „ślepe”.

Kliniczne skutki statystycznych skrótów

Szczególnie alarmujące wnioski płyną z analizy danych medycznych. Gemini 3 Pro, poproszony o opisanie nieistniejących zdjęć rentgenowskich, rezonansów magnetycznych czy wyników EKG, wykazywał tendencję do diagnozowania ciężkich patologii. System najczęściej „widział” czerniaki, raki oraz zawały mięśnia sercowego (STEMI). W kontekście automatyzacji medycznej przez API, gdzie błąd przesyłu danych mógłby zasugerować lekarzowi krytyczny stan pacjenta na podstawie pustego pliku, konsekwencje mogą być tragiczne.

Badanie ujawniło również brutalną prawdę o współczesnych benchmarkach: od 70% do 80% ich wyników modele osiągają bez patrzenia na obraz. W przypadku testów medycznych, takich jak VQA-Rad, modele uzyskiwały aż 99% swojej standardowej dokładności korzystając wyłącznie z tekstu pytania. Sugeruje to, że większość sukcesów AI w „widzeniu” to w rzeczywistości sprytne wykorzystywanie wskazówek językowych i statystycznego prawdopodobieństwa zawartego w pytaniach.

Superzgadywacz kontra radiolodzy

Aby udowodnić, jak bardzo niedoskonałe są obecne metody testowania, badacze wyszkolili model o nazwie „superzgadywacz”. To czysto tekstowy system oparty na Qwen 2.5 (3 miliardy parametrów), który nigdy nie widział żadnego zdjęcia. Ku zaskoczeniu ekspertów, ten tekstowy algorytm pokonał w testach analizy prześwietleń klatki piersiowej nie tylko gigantyczne modele multimodalne, ale także doświadczonych radiologów (o ponad 10%). Generowane przez niego uzasadnienia były często nieodróżnialne od autentycznych analiz lekarskich.

Eksperyment ten pokazuje, że pytania w benchmarkach są przesycone korelacjami językowymi. Jeśli model wie, o co pyta lekarz, potrafi wywnioskować najbardziej prawdopodobną odpowiedź bez analizy pikseli. Im potężniejszy model językowy stoi u podstaw AI, tym paradoksalnie większe ryzyko wystąpienia efektu mirażu. Lepsze zdolności lingwistyczne pozwalają systemom skuteczniej maskować brak rzeczywistego zrozumienia obrazu.

Konieczność nowej metodologii

Stanford proponuje rozwiązanie w postaci protokołu „B-Clean”. Metoda ta polega na usuwaniu z testów wszystkich pytań, na które model potrafi odpowiedzieć poprawnie bez obrazu. Po zastosowaniu tej filtracji, wyniki wielu uznanych systemów drastycznie spadły – np. w benchmarku MicroVQA skuteczność GPT-5.1 nurkowała z 61,5% do zaledwie 15,4%.

Wnioski dla branży są jasne: obecne rankingi AI są w dużej mierze iluzją. Bez wprowadzenia rygorystycznych testów ablacyjnych (sprawdzających działanie bez jednej z modalności) oraz dynamicznie zmienianych zestawów danych, nie będziemy w stanie odróżnić rzeczywistego postępu w wizji komputerowej od coraz doskonalszego, statystycznego oszustwa językowego. Modele AI stają się genialnymi teoretykami, którzy potrafią barwnie opowiadać o świecie, którego w rzeczywistości nie dostrzegają.