LLMR & D

Przełom w matematycznym rozumowaniu AI: GPT-5.2 Pro deklasuje konkurencję w teście FrontierMath

Nowy lider cyfrowej matematyki

Wyścig o stworzenie sztucznej inteligencji zdolnej do logicznego rozumowania na poziomie eksperckim właśnie wszedł w nową fazę. Najnowszy model OpenAI, GPT-5.2 Pro, odnotował spektakularny sukces w badaniu przeprowadzonym przez Epoch AI, uzyskując 31% punktów w najbardziej wymagającym segmencie benchmarku FrontierMath (Tier 4). Wynik ten stanowi gigantyczny przeskok jakościowy względem dotychczasowego lidera, Gemini 3 Pro, który mógł poszczycić się skutecznością na poziomie 19%.

Przekraczanie granic niemożliwego

Skuteczność GPT-5.2 Pro nie sprowadza się jedynie do suchych procentów. Model zdołał poprawnie zanalizować i rozwiązać 15 z 48 postawionych zadań, przy czym cztery z nich nigdy wcześniej nie zostały poprawnie rozwiązane przez żadną inną strukturę neuronową. Co istotne, proces testowy musiał zostać przeprowadzony manualnie poprzez interfejs ChatGPT ze względu na przejściowe problemy z API, co czyni te rezultaty jeszcze bardziej namacalnymi w kontekście codziennego użytkowania modelu.

Środowisko naukowe przyjęło te rewelacje z mieszanymi uczuciami, choć przeważa ostrożny optymizm. Matematycy, którzy poddali analizie odpowiedzi wygenerowane przez AI, ocenili je w większości pozytywnie. Pojawiły się jednak głosy krytyczne dotyczące precyzji niektórych wyjaśnień. Choć wyniki końcowe były poprawne, ścieżka dojścia do nich bywała momentami mało klarowna lub brakowało jej rygoru matematycznego, jakiego oczekuje się od publikacji naukowych.

Sceptycyzm w obliczu sukcesu

Obecne osiągnięcia wpisują się w szerszy trend wzrostu użyteczności modeli z rodziny GPT-5 w naukach ścisłych. W kuluarach mówi się o pomyślnym zmierzeniu się AI z problemami Erdősa oraz realnym wsparciu badaczy w ich pracy zawodowej. Mimo to autorytety takie jak Terence Tao studzą entuzjazm. Wybitny matematyk ostrzega przed wyciąganiem pochopnych wniosków i przypomina, że statystyczna trafność w rozwiązywaniu konkretnych zadań nie jest tożsama z posiadaniem intuicji matematycznej. Przed OpenAI stoi teraz wyzwanie udowodnienia, że GPT-5.2 Pro to narzędzie do faktycznego odkrywania nowej wiedzy, a nie tylko wyrafinowany system dopasowywania skomplikowanych wzorców.