Sztuczna inteligencja oblewa egzamin przedszkolaka. Wyrafinowane modele tracą wzrok przez „wąskie gardło” słów
Paradoks współczesnych dużych modeli językowych (LLM) staje się coraz bardziej jaskrawy. Systemy, które bez trudu zdają egzaminy prawnicze czy medyczne, w starciu z zadaniami wymagającymi podstawowej orientacji przestrzennej wykazują bezradność. Potwierdza to nowy raport przygotowany przez badaczy z instytucji takich jak UniPat AI, Uniwersytet Pekiński, Alibaba Group oraz MoonShot AI. Zespół stworzył benchmark „BabyVision”, który bezlitośnie obnażył, jak wielka przepaść dzieli „inteligencję” algorytmiczną od naturalnego rozwoju poznawczego człowieka.
Labirynt zbyt trudny dla cyfrowego geniusza
Badanie skupiło się na prostych zadaniach wizualnych, które w psychologii rozwojowej przypisuje się dzieciom stawiającym pierwsze kroki w nauce mówienia. Test obejmował 388 wyzwań podzielonych na cztery kategorie: szczegółowe rozróżnianie wzorców, podążanie za linią w labiryncie, percepcję przestrzenną (np. liczenie zakrytych klocków 3D) oraz rozpoznawanie rotacji obiektów. Wyniki są uderzające – większość czołowych modeli osiągnęła rezultaty gorsze niż przeciętny trzylatek.
Najlepiej w zestawieniu wypadł Gemini-3-Pro-Preview, osiągając skuteczność na poziomie 49,7 proc. Dla kontekstu: dorośli ludzie uzyskują w tym samym teście średnio 94,1 proc. Nawet lider rankingu, mimo swojej przewagi nad konkurencją, wciąż tracił około 20 punktów procentowych do przeciętnych sześciolatków. Inne modele wypadły znacznie gorzej: GPT-5.2 uzyskał 34,4 proc., chiński Doubao-1.8 zdobył 30,2 proc., a Claude 4.5 Opus zamknął stawkę z zaledwie 14,2 proc. poprawnych odpowiedzi.
Wąskie gardło werbalizacji
Dlaczego maszyny, które potrafią analizować skomplikowane wykresy finansowe, potykają się na zadaniach dla maluchów? Naukowcy wskazują na fundamentalny błąd architektury obecnych systemów, który określili mianem „wąskiego gardła werbalizacji” (ang. verbalization bottleneck). Współczesne modele multimodalne nie „widzą” w ludzkim rozumieniu tego słowa. Zamiast przetwarzać obraz bezpośrednio, tłumaczą sygnały wizualne na reprezentacje językowe, by dopiero na ich podstawie przeprowadzać proces wnioskowania.
To podejście sprawdza się przy analizie dokumentów, ale zawodzi, gdy kluczowe informacje są czysto wizualne i trudne do opisania słowami. Subtelne różnice w kształtach, skomplikowane relacje przestrzenne czy trójwymiarowe struktury gubią się w procesie translacji obrazu na tekst. Maszyna próbuje opisać sobie labirynt, zamiast go zobaczyć – i w tym procesie traci orientację.
Rysowanie obnaża braki
Aby jeszcze dokładniej zbadać ten problem, badacze rozszerzyli eksperyment o moduł „BabyVision-Gen”, wymagając od modeli narysowania rozwiązań – na przykład wykreślenia ścieżki czy zaznaczenia różnic. Ludzie często rozwiązują problemy wizualne poprzez szkicowanie, zanim w ogóle potrafią ubrać rozwiązanie w słowa. Maszyny poległy tu na całej linii. Nawet wyspecjalizowane generatory obrazów, takie jak Nano Banana Pro czy GPT-Image-1.5, osiągnęły wyniki odpowiednio 18,3 proc. i 9,8 proc.
Publikacja benchmarku BabyVision na GitHubie ma posłużyć jako narzędzie diagnostyczne dla branży. Wnioski płynące z badania sugerują, że dalsze skalowanie obecnych modeli może nie wystarczyć. Rozwiązaniem, ku któremu skłaniają się eksperci, są „zunifikowane modele multimodalne”, które będą przetwarzać i generować informacje wizualne natywnie, omijając etap konwersji na tekst. Dopóki to nie nastąpi, nasze „inteligentne” systemy będą wciąż przegrywać z przedszkolakami w układaniu klocków.
