Rozumowanie

Bariera skomplikowanych danych. Dlaczego AI nie radzi sobie z wizualizacjami?

W świecie sztucznej inteligencji panuje przekonanie, że generowanie kodu wizualizacyjnego to zadanie opanowane niemal do perfekcji. Rzeczywistość okazuje się jednak znacznie mniej optymistyczna, gdy wyjdziemy poza sterylne, syntetyczne dane i proste wykresy słupkowe. Grupa badawcza z kilku chińskich uniwersytetów opublikowała wyniki benchmarku RealChart2Code, który poddał 14 wiodących modeli AI rygorystycznym testom opartym na realnych zbiorach danych z platformy Kaggle.

Luka złożoności, czyli twarde lądowanie

Badanie ujawniło zjawisko, które naukowcy nazwali „luką złożoności”. Modele, które w dotychczasowych testach, takich jak ChartMimic, osiągały wyniki bliskie 96%, drastycznie tracą na sprawności, gdy mierzą się z RealChart2Code. Najlepsze z nich notują spadek wydajności o blisko połowę. Przykładowo, Gemini 3 Pro Preview – lider w replikacji prostych schematów – przy złożonych, wielopanelowych wizualizacjach ledwo przekracza próg 50% poprawności.

RealChart2Code nie bierze jeńców. Zamiast generować kod na podstawie opisów tekstowych, benchmark wymaga od modeli trzech operacji: czystej replikacji wizualnej, odtworzenia kodu na bazie surowych danych (często liczących miliony wierszy) oraz iteracyjnej poprawy błędnego kodu. To ostatnie zadanie obnażyło szczególną słabość AI – tendencję do tzw. „regresywnej edycji”. Polega ona na tym, że model naprawiając jeden błąd w strukturze wykresu, jednocześnie psuje elementy, które wcześniej działały bez zarzutu.

Halucynacje kontra błędy logiczne

Analiza błędów pokazuje wyraźny podział między modelami zamkniętymi ( proprietary) a tymi o otwartych wagach. Modele takie jak Qwen3-VL czy Intern-VL często kapitulują już na etapie składni. Ich błędy są „twarde” – potrafią wymyślać nieistniejące biblioteki lub wywoływać błędne funkcje Matplotlib. W przypadku mniejszych modeli, jak DeepSeek-VL-7B, współczynnik „pass rate” wyniósł zaledwie 9,7%, co oznacza, że dziewięć na dziesięć prób skończyło się kodem, który nawet się nie uruchomił.

Zupełnie inaczej wygląda sytuacja u liderów rankingu. Claude 4.5 Opus (lider zestawienia z wynikiem 8.2/10) oraz Gemini 3 Pro Preview rzadko generują błędy składniowe. Ich porażki mają charakter logiczny i wizualny. Choć struktura wykresu wygląda profesjonalnie, modele te często mylą osie danych, źle przypisują serie informacji lub nie radzą sobie z zachowaniem precyzyjnej kolorystyki i atrybutów wizualnych określonych w zadaniu.

Autorefleksja w kodzie

Mimo technicznych potknięć, badacze zauważają pewien postęp w sposobie oceny tych narzędzi. Zastosowanie systemu wieloagentowego do automatycznego oceniania wyników AI wykazało ogromną zbieżność z opiniami ludzkich ekspertów (wskaźnik Cohen’s Kappa na poziomie 0,83). Sugeruje to, że choć same modele mają problem z tworzeniem wykresów, potrafimy już dość precyzyjnie mierzyć ich braki.

Wyniki RealChart2Code to zimny prysznic dla entuzjastów pełnej automatyzacji analizy danych. Pokazują, że przejście od estetycznego obrazka do funkcjonalnego, poprawnego merytorycznie kodu wizualizacyjnego opartego na setkach milionów rekordów wciąż pozostaje wyzwaniem, którego nie rozwiązała jeszcze żadna dostępna na rynku architektura.