Social media

Hype kontra fakty: ciemna strona promocji AI w mediach społecznościowych

„To żenujące” – tak w trzech słowach Demis Hassabis, dyrektor generalny Google DeepMind, skwitował jeden z głośniejszych incydentów w świecie sztucznej inteligencji. Jego komentarz na platformie X (dawniej Twitter) odnosił się do entuzjastycznego wpisu Sébastiena Bubecka, naukowca z konkurencyjnego OpenAI. Bubeck ogłosił wówczas, że najnowszy model językowy jego firmy, GPT-5, z powodzeniem rozwiązał dziesięć nierozwiązanych problemów matematycznych, proklamując nową erę przyspieszenia nauki dzięki AI.

Kiedy hype wygrywa z faktami

Szybko okazało się, że „przełom” GPT-5 nie polegał na znajdowaniu świeżych dowodów do problemów słynnego XX-wiecznego matematyka Paula Erdősa, lecz na wyszukaniu istniejących już rozwiązań, które umknęły uwadze eksperta. Thomas Bloom, matematyk z Uniwersytetu w Manchesterze i twórca katalogu problemów Erdősa, erdosproblems.com, wyjaśnił sytuację: lista nierozwiązanych zagadek na jego stronie oznaczała jedynie, że on sam nie natrafił na dany dowód, nie zaś, że takowy nie istnieje. W obliczu milionów publikacji naukowych przeglądanie ich wszystkich jest niewykonalne dla człowieka, ale nie dla zaawansowanego modelu AI. Zamiast więc dokonać nowego odkrycia, GPT-5 sprawnie przeszukał zasoby internetu, ujawniając istniejące już rozwiązania, które dotychczas były pomijane.

Incydent ten stanowi dobitny przykład problemu, z jakim boryka się obecnie branża AI: przedwczesne, często przesadne, ogłaszanie przełomów w mediach społecznościowych. Jak podkreśla François Charton, badacz stosujący LLM-y w matematyce z Axiom Math, umiejętność przesiewania ogromnych zbiorów literatury to samo w sobie imponujące osiągnięcie. Jednakże, w powodzi medialnego szumu, ta użyteczna funkcja zostaje przyćmiona przez nierealistyczne oczekiwania wobec „prawdziwych odkryć”.

Pułapki zbyt szybkiego entuzjazmu

Historia OpenAI nie jest odosobniona. Dwa miesięce po tym, jak matematycy wykazali, że żaden ówczesny LLM nie jest w stanie rozwiązać problemu Yu Tsumury nr 554, w mediach społecznościowych pojawiły się dowody, że GPT-5 poradził sobie z nim bez trudu. Entuzjaści porównywali to do momentu, w którym sztuczna inteligencja DeepMind pokonała mistrza Go Lee Sedola. Charton studzi jednak emocje, wskazując, że problem Yu Tsumury to zagadka na poziomie studenckim, nie stanowiąca wyzwania dla zaawansowanych matematyków.

Tymczasem, gdy w sieci wrzało od dyskusji wokół GPT-5, światło dzienne ujrzały bardziej stonowane analizy możliwości LLM-ów w medycynie i prawie – dziedzinach, w których twórcy AI deklarowali wyjątkowe kompetencje swoich modeli. Okazało się, że choć LLM-y mogą stawiać pewne diagnozy medyczne, ich rekomendacje dotyczące leczenia bywają wadliwe. W prawie natomiast, modele często generowały niespójne i błędne porady. Autorzy badań podsumowali, że „dotychczasowe dowody spektakularnie nie spełniają ciężaru dowodu”.

Media społecznościowe jako katalizator oczekiwań

Fenomen mediów społecznościowych, gdzie „nikt nie chce zostać w tyle” napędza to błędne koło. To na platformach takich jak X najszybciej pojawiają się informacje o nowych wynikach, a kluczowe postaci branży, jak Sam Altman czy Yann LeCun, często wdają się tam w publiczne dyskusje. W tym szumie informacji łatwo o przeoczenie faktycznych niuansów i pomyłek, które nie zawsze zostają równie szybko skorygowane.

Interesującą puentę do tej historii dostarczyła firma Axiom Math. Dwóch dni po tym, jak tegoroczny artykuł na ten temat został przekazany do druku, Axiom, maleńka, niedawno założona firma, ogłosiła, że jej model matematyczny, AxiomProver, rozwiązał dwa otwarte problemy Erdősa (numery 124 i 481). Pięć dni później firma pochwaliła się, że AxiomProver rozwiązał również dziewięć z dwunastu problemów z Putnam Competition – trudnego konkursu matematycznego dla studentów, który niektórzy uznają za trudniejszy od Międzynarodowej Olimpiady Matematycznej. Wyniki te, choć imponujące, również wywołały debatę na X, gdzie eksperci zauważyli, że o ile Olimpiada wymaga kreatywnego rozwiązywania, o tyle Putnam w większej mierze testuje wiedzę matematyczną – łatwiejszą do opanowania przez LLM, które przyswoiły ogromne zasoby internetu.

Osiągnięcia Axiom, podobnie jak te z OpenAI, wymagają głębszej analizy, by prawdziwie zrozumieć, co modele LLM faktycznie robią, rozwiązując skomplikowane problemy matematyczne. Promocja bazująca na medialnym szumie, bez solidnego fundamentu merytorycznego, jest drogą donikąd. Konieczne jest odejście od narracji opartej na „błyskawicznej ekscytacji” na rzecz rzetelnej oceny i krytycznego myślenia.