Spór o GPT‑5: czy model rzeczywiście rozwiązał problemy Erdos?
W ciągu kilku godzin od entuzjastycznego komunikatu OpenAI na temat osiągnięć GPT‑5 fala krytyki przetoczyła się przez środowisko naukowe i techniczne. W usuniętym poście wiceprezes OpenAI Kevin Weil miał napisać, że model „GPT‑5 znalazł rozwiązania 10 (!) wcześniej nierozwiązanych problemów Erdősa i poczynił postępy w kolejnych 11”. Zapowiedź — jeśli czytać ją dosłownie — sugerowała przełomowe odkrycia w teorii liczb i kombinatoryce.
Problemy Erdősa, sformułowane przez wybitnego matematyka Paula Erdősa, to zbiór trudnych i słynnych problemów matematycznych. Wielu badaczy pracowało nad niektórymi z nich przez dekady, a ich status jako „otwarte” zwykle oznacza, że brak jest powszechnie uznanych, opublikowanych dowodów.
Rzeczywistość szybko sprowadziła entuzjazm na ziemię. Thomas Bloom, kurator strony poświęconej problemom Erdősa, określił wpis Weila jako „dramatyczną nadinterpretację” — na swojej liście oznacza on problem jako otwarty wtedy, gdy osobiście nie zna publikacji, która go rozwiązuje. Innymi słowy, według Blooma GPT‑5 nie odkrył nowych dowodów; jedynie wskazał literaturę, o której Bloom nie wiedział.
Sytuację dopełnił komentarz Sebastiena Bubecka z OpenAI, który przyznał, że model odnalazł przede wszystkim istniejące rozwiązania w literaturze. Bubeck dodał jednak, że nawet samo odnalezienie takich prac jest wartością — zwłaszcza gdy literaturę trudno przeszukać. Oponenci wskazują natomiast, że istnieje istotna różnica między wynalezieniem rozwiązania a jego zacytowaniem.
Reakcje środowiska badawczego i konkurencyjnych ośrodków były ostre. Yann LeCun, główny naukowiec Meta, skomentował sytuację gorzko: „Dali się ponieść fantazji własnych chatbotów”; Demis Hassabis z DeepMind ocenił wydarzenie krótko: „Jest to żenujące.” Tego rodzaju komentarze podkreślają przede wszystkim ryzyko reputacyjne, gdy komunikacja o wynikach naukowych miesza się z marketingiem.
Z punktu widzenia metodologii sprawa ma kluczowe znaczenie. Duże modele językowe uczą się na ogromnych zbiorach tekstów i potrafią efektywnie przywoływać trudno dostępne cytowania czy fragmenty prac. To użyteczna umiejętność — przyspiesza przeszukiwanie literatury. Jednak publiczne ogłaszanie „rozwiązań” bez jasnej weryfikacji, pełnych odwołań do źródeł i formalnej walidacji dowodów w środowisku matematycznym wprowadza w błąd co do natury osiągnięcia.
Problem ma też wymiar praktyczny: twierdzenia matematyczne wymagają sprawdzenia i replikacji przez innych badaczy. Jeśli model znajduje artykuły, które zawierają dowód, to wygenerowane twierdzenie nie jest autorskim odkryciem modelu, lecz wynikiem efektywnego wyszukania. Jeżeli z kolei model próbuje sam generować dowody, bez solidnych mechanizmów weryfikujących, łatwo o błędy, nieścisłości lub fałszywe twierdzenia przedstawione w przekonujący sposób.
Ta afera jest więc bardziej lekcją niż sensacją: pokazuje potrzebę starannego komunikowania osiągnięć AI i jasnego rozróżniania między automatyzacją przeszukiwania wiedzy a autentycznym, oryginalnym wkładem naukowym. Dla instytucji to przypomnienie, że szybkie, chwytliwe komunikaty mogą przynieść krótkotrwałą uwagę, ale długofalowo podważają wiarygodność, jeśli nie idą za nimi transparentne dowody.
W praktyce powinna nastąpić zmiana standardów: zespoły badawcze i firmy publikujące wyniki powinni dostarczać pełne źródła, metody weryfikacji oraz, w miarę możliwości, reproducible pipelines. Dopóki takie standardy nie zostaną powszechnie wdrożone, podobne kontrowersje będą się powtarzać — przy każdym głośnym ogłoszeniu, w którym granica między odkryciem a odnalezieniem istniejącej pracy nie będzie precyzyjnie komunikowana.
