Rozumowanie

„Humanity’s Last Exam”: Nowy test obnaża iluzję inteligencji współczesnych modeli AI

Era łatwych zwycięstw w rankingach MMLU dobiegła końca. Podczas gdy deweloperzy co tydzień ogłaszają pokonanie kolejnych barier, rzeczywistość okazała się znacznie bardziej wymagająca: obecne systemy AI to wciąż genialni statystycy, a nie eksperci.

Koniec z łatwymi punktami

Badacze z całego świata, w tym specjaliści z Texas A&M University, postanowili przeciąć pępowinę między wyścigiem zbrojeń wielkich korporacji a realną nauką. Tak powstał „Humanity’s Last Exam” (HLE) – zestaw 2500 pytań, który nie tylko sprawdza fakty, ale weryfikuje zdolność do operowania na najwyższym poziomie specjalizacji. To nie jest kolejny test z wiedzy ogólnej. Mówimy tu o tłumaczeniu inskrypcji w wymarłym języku palmyreńskim czy analizie mikrostruktur w anatomii ptaków.

Metodologia była surowa i selektywna.

Każde pytanie, na które jakikolwiek istniejący model AI udzielił poprawnej odpowiedzi podczas fazy testów, zostawało natychmiast usunięte. W efekcie HLE to destylat problemów, które obecnie znajdują się poza zasięgiem obliczeniowym i logicznym krzemu.

Bolesny upadek gigantów

Wyniki liderów rynku wyglądają niemal komicznie w porównaniu do ich marketingowych obietnic. GPT-4o od OpenAI uzyskał marne 2,7%, a Claude 3.5 Sonnet zaledwie 4,1%. Nawet model o1, reklamowany jako przełom w rozumowaniu, zdołał wycisnąć tylko 8%. Najlepsze systemy, takie jak Gemini 3.1 Pro, zatrzymują się w okolicach 40-50%, co wciąż oznacza, że mylą się co drugi raz w starciu z prawdziwym ekspertem.

Sztuczna inteligencja nie myśli – ona rozpoznaje wzorce. HLE udowadnia, że gdy wzorców brakuje, maszyny stają się bezradne.

Po co nam test, którego nikt nie zalicza?

Doktor Tung Nguyen, jeden z głównych autorów testu, zaznacza, że bez precyzyjnych narzędzi pomiarowych ryzykujemy zbiorową halucynację na temat możliwości AI. Jeśli politycy i inżynierowie uwierzą, że modele posiadają ludzkie zrozumienie kontekstu, skutki wdrożeń w medycynie czy inżynierii mogą być katastrofalne.

  • 2500 pytań覆盖wally specjalistyczne dziedziny od matematyki po nauki humanistyczne.
  • Brak możliwości wygooglowania – pytania skonstruowano tak, by proste wyszukiwanie nie dawało gotowych odpowiedzi.
  • Przejrzystość i trwałość – większość pytań pozostaje ukryta, by zapobiec „douczaniu” modeli pod konkretny test.

Wiedza a prawdopodobieństwo

HLE to dowód na istnienie ogromnej luki poznawczej. Inteligencja to nie tylko kompresja internetu, ale głębia, kontekst i unikalne doświadczenie ludzkie, którego algorytmy na razie nie potrafią podrobić. Projekt ten nie jest atakiem na technologię, lecz kubełkiem zimnej wody wylanym na głowy entuzjastów wierzących w bliskość AGI.

To przypomnienie: ludzka wiedza to coś więcej niż przewidywanie następnego tokenu.