Rozumowanie

Bariera nie do przejścia. Nowy test ARC-AGI-3 obnaża słabość modeli językowych

Fundacja ARC Prize zaprezentowała trzecią odsłonę swojego flagowego benchmarku, rzucając wyzwanie systemom AI w sposób, który całkowicie neutralizuje ich dotychczasowe przewagi. Podczas gdy poprzednie edycje opierały się na statycznym dopasowywaniu wzorców, ARC-AGI-3 przenosi testy w interaktywne, turowe środowiska gier. Maszyny muszą tu samodzielnie eksplorować przestrzeń, budować hipotezy i realizować cele – a wszystko to bez jakichkolwiek instrukcji czy wskazówek. Wyniki są druzgocące dla branży: Gemini 3.1 Pro Preview osiągnął zaledwie 0,37%, GPT 5.4 zdobył 0,26%, a Grok-4.20 zamknął stawkę z zerowym wynikiem.

Rygorystyczna miara efektywności

Twórcy benchmarku, z François Cholletem na czele, wprowadzili nowatorski system oceniania RHAE (Relative Human Action Efficiency), który karze za próbę siłowego rozwiązywania problemów (metodą brute-force). Zamiast prostego sprawdzenia, czy maszyna podaje prawidłową odpowiedź, analizowana jest liczba interakcji niezbędnych do osiągnięcia celu w stosunku do wydajności człowieka. Algorytm obliczeniowy jest bezlitosny – wskaźnik efektywności jest podnoszony do kwadratu. Jeśli sztuczna inteligencja potrzebuje dziesięciokrotnie więcej ruchów niż człowiek, jej wynik nie wynosi 10%, lecz zaledwie 1%. Ma to na celu promowanie autentycznego rozumowania zamiast chaotycznego przeszukiwania przestrzeni rozwiązań.

Koniec z zewnętrznym wsparciem

Kluczowym elementem kontrowersji wokół niskich wyników jest rezygnacja z tak zwanych rusztowań (custom scaffolding) – specjalnie przygotowanego kodu, który pomaga modelom odnaleźć się w konkretnym zadaniu. Testy przeprowadzone wspólnie z Duke University jasno pokazują, że model Opus 4.6 potrafi uzyskać niemal 100% skuteczności, gdy korzysta z dedykowanego osprzętu w znanym środowisku, by natychmiast spaść do zera w momencie konfrontacji z czymś nowym. Dowodzi to tezy Cholleta: to nie AI jest inteligentna, lecz programiści, którzy „podpowiadają” jej, jak ma interpretować dane.

Chollet argumentuje, że litera „G” w skrócie AGI (General) oznacza gotowość do radzenia sobie z dowolnym, nieznanym wcześniej wyzwaniem bez asysty. Skoro przeciętny człowiek potrafi opanować zasady gry bez instrukcji, to system aspirujący do miana ogólnej inteligencji nie powinien wymagać ręcznie pisanych promptów czy zewnętrznych skryptów wspierających. Według twórców ARC, obecna generacja AI wciąż pozostaje jedynie zaawansowanym narzędziem do automatyzacji, a nie autonomicznym agentem zdolnym do adaptacji.

Przeszłość jako prognostyk przyszłości

Mimo pozornie pesymistycznych wyników, historia benchmarków ARC pokazuje, że rzadko się one mylą. Poprzednie edycje trafnie identyfikowały ograniczenia modeli, zanim te stały się powszechnie oczywiste. ARC-AGI-3 celuje w największą obecnie lukę: inteligencję agentyczną. Fundacja oferuje 2 miliony dolarów nagrody dla każdego, kto stworzy system zdolny dorównać sprawnością ludziom w tych środowiskach. Publiczne udostępnienie części zadań ma pozwolić badaczom na wyciągnięcie wniosków, które – wzorem techniki „chain-of-thought” – mogą w przyszłości zostać zaszyte bezpośrednio w architekturze modeli, przybliżając nas do rzeczywistej, a nie tylko pozorowanej inteligencji.