GPT-4o widzi, ale czy rozumie? Analiza wizualnych kompetencji modeli multimodalnych
Wraz z dynamicznym rozwojem sztucznej inteligencji, modele multimodalne, takie jak GPT-4o, Gemini czy Claude, coraz śmielej wkraczają do świadomości publicznej. Ich imponujące prezentacje, łączące płynne operowanie językiem z analizą obrazów, wywołały falę entuzjazmu. Mimo to, specjaliści od dłuższego czasu zadają sobie pytanie, na ile te systemy faktycznie  i rozumieją otaczający je świat wizualny, a na ile ich sukcesy opierają się na zaawansowanych zdolnościach językowych.
Obecne metody oceny modeli multimodalnych (MFM) koncentrują się głównie na zadaniach tekstowych, takich jak odpowiadanie na pytania dotyczące obrazów (VQA) czy klasyfikacja tekstowa. Problem polega na tym, że nawet te  zadania często wymagają odpowiedzi tekstowych, co utrudnia sprawiedliwą ocenę czysto wizualnych umiejętności, abstrahując od językowych. Co więcej, krytyczne aspekty percepcji – takie jak rozumienie geometrii 3D, segmentacja obiektów czy grupowanie – są wciąż pomijane w standardowych benchmarkach.
Metodologia testów EPFL
Naukowcy z EPFL podjęli wyzwanie, by zbadać rzeczywiste zdolności wizualne modeli MFM. Wzięli na warsztat popularne systemy: GPT-4o, Gemini 2.0 Flash oraz Claude 3.5 Sonnet. Kluczową innowacją ich badania było opracowanie metody , czyli łańcuchowego formułowania zapytań. Ponieważ większość MFM-ów generuje dane tylko w formie tekstowej i dostępna jest wyłącznie poprzez API, konieczne było przetłumaczenie typowych zadań widzenia komputerowego, takich jak segmentacja, detekcja obiektów czy przewidywanie głębi, na format kompatybilny z wyjściem tekstowym.
Przykładowo, zamiast bezpośredniego przewidywania ramek ograniczających, model był najpierw proszony o identyfikację obecnych obiektów, a następnie o ich lokalizację poprzez rekurencyjne  obrazu. Dla zadań segmentacji, obrazy były dzielone na superpiksele, co ułatwiało ich etykietowanie. Metoda ta pozwalała na modułowe podejście, wykorzystując silne strony MFM-ów w klasyfikacji i ocenie podobieństwa, jednocześnie kontrolując kalibrację, aby zapewnić rzetelne porównania.
Wyniki: Generalista vs. Specjalista
Badania przeprowadzone na zbiorach danych takich jak ImageNet, COCO i Hypersim, wykazały, że choć modele multimodalne są kompetentnymi generalistami, nadal znacząco odstają od wyspecjalizowanych modeli wizyjnych. GPT-4o okazał się liderem wśród testowanych MFM-ów, uzyskując najlepsze wyniki w 4 z 6 zadań.
Mimo to, wyniki były dalekie od porównywalnych ze specjalistycznymi algorytmami. Na przykład, w klasyfikacji obrazów na ImageNet, GPT-4o osiągnął 77,2%, podczas gdy specjalistyczny model ViT-G przekroczył 90,94%. Podobnie w detekcji obiektów na COCO, GPT-4o uzyskał 60,62 AP50, ustępując Co-DETR (91,30%). W zadaniach segmentacji semantycznej, GPT-4o uzyskał 44,89 mIoU, podczas gdy wiodące modele takie jak OneFormer osiągnęły 65,52.
Wnioski i perspektywy
Podsumowując, MFM-y radzą sobie lepiej z zadaniami semantycznymi, gdzie liczy się ogólne rozumienie kontekstu, niż z zadaniami geometrycznymi, wymagającymi precyzyjnego rozumienia przestrzeni i obiektów. Ich zdolność do radzenia sobie ze zmianami rozkładu danych (distribution shifts) jest umiarkowana, jednak precyzyjne wnioskowanie wizualne wciąż pozostaje ich piętą achillesową.
Badanie to stanowi istotny krok w tworzeniu ujednoliconych ram oceny zdolności wizualnych modeli multimodalnych. Pokazuje, że choć MFM-y, szkolone głównie na danych obrazowo-tekstowych, wykazują obiecujące postępy – szczególnie nowsze modele rozumowania, takie jak O3, w zadaniach 3D – wciąż stoją przed nimi wyzwania. Wysokie koszty wnioskowania i wrażliwość na sposób formułowania promptów to nadal istotne ograniczenia. Niemniej jednak, opracowane ramy badawcze stanowią solidną podstawę dla dalszych prac nad rozwojem i obiektywną oceną tych coraz potężniejszych systemów AI.
– to jest moj artykuł ktory sie jakos edycyjnie rozjechał, popraw go prosze
