„Humanity’s Last Exam”: Nowy test obnaża iluzję inteligencji współczesnych modeli AI
Era łatwych zwycięstw w rankingach MMLU dobiegła końca. Podczas gdy deweloperzy co tydzień ogłaszają pokonanie kolejnych barier, rzeczywistość okazała się znacznie bardziej wymagająca: obecne systemy AI to wciąż genialni statystycy, a nie eksperci.
Koniec z łatwymi punktami
Badacze z całego świata, w tym specjaliści z Texas A&M University, postanowili przeciąć pępowinę między wyścigiem zbrojeń wielkich korporacji a realną nauką. Tak powstał „Humanity’s Last Exam” (HLE) – zestaw 2500 pytań, który nie tylko sprawdza fakty, ale weryfikuje zdolność do operowania na najwyższym poziomie specjalizacji. To nie jest kolejny test z wiedzy ogólnej. Mówimy tu o tłumaczeniu inskrypcji w wymarłym języku palmyreńskim czy analizie mikrostruktur w anatomii ptaków.
Metodologia była surowa i selektywna.
Każde pytanie, na które jakikolwiek istniejący model AI udzielił poprawnej odpowiedzi podczas fazy testów, zostawało natychmiast usunięte. W efekcie HLE to destylat problemów, które obecnie znajdują się poza zasięgiem obliczeniowym i logicznym krzemu.
Bolesny upadek gigantów
Wyniki liderów rynku wyglądają niemal komicznie w porównaniu do ich marketingowych obietnic. GPT-4o od OpenAI uzyskał marne 2,7%, a Claude 3.5 Sonnet zaledwie 4,1%. Nawet model o1, reklamowany jako przełom w rozumowaniu, zdołał wycisnąć tylko 8%. Najlepsze systemy, takie jak Gemini 3.1 Pro, zatrzymują się w okolicach 40-50%, co wciąż oznacza, że mylą się co drugi raz w starciu z prawdziwym ekspertem.
Sztuczna inteligencja nie myśli – ona rozpoznaje wzorce. HLE udowadnia, że gdy wzorców brakuje, maszyny stają się bezradne.
Po co nam test, którego nikt nie zalicza?
Doktor Tung Nguyen, jeden z głównych autorów testu, zaznacza, że bez precyzyjnych narzędzi pomiarowych ryzykujemy zbiorową halucynację na temat możliwości AI. Jeśli politycy i inżynierowie uwierzą, że modele posiadają ludzkie zrozumienie kontekstu, skutki wdrożeń w medycynie czy inżynierii mogą być katastrofalne.
- 2500 pytań覆盖wally specjalistyczne dziedziny od matematyki po nauki humanistyczne.
- Brak możliwości wygooglowania – pytania skonstruowano tak, by proste wyszukiwanie nie dawało gotowych odpowiedzi.
- Przejrzystość i trwałość – większość pytań pozostaje ukryta, by zapobiec „douczaniu” modeli pod konkretny test.
Wiedza a prawdopodobieństwo
HLE to dowód na istnienie ogromnej luki poznawczej. Inteligencja to nie tylko kompresja internetu, ale głębia, kontekst i unikalne doświadczenie ludzkie, którego algorytmy na razie nie potrafią podrobić. Projekt ten nie jest atakiem na technologię, lecz kubełkiem zimnej wody wylanym na głowy entuzjastów wierzących w bliskość AGI.
To przypomnienie: ludzka wiedza to coś więcej niż przewidywanie następnego tokenu.
