LLMR & DRozumowanie

OMEGA: nowe spojrzenie na granice rozumowania matematycznego w modelach językowych

Pomimo znaczących postępów w dziedzinie sztucznej inteligencji, wciąż zmagamy się z fundamentalnym pytaniem o zdolność maszyn do prawdziwie kreatywnego rozumowania. W kontekście matematyki, gdzie wymagana jest nie tylko znajomość reguł, ale także intuicja i zdolność do wypracowywania nieszablonowych rozwiązań, modele językowe (LLM) osiągnęły już imponujące wyniki. Modele takie jak DeepSeek-R1, wykorzystujące złożone ścieżki rozumowania (Chain-of-Thought, CoT), potrafią rozwiązywać zadania na poziomie olimpiad matematycznych.

Jednakże, jak podkreślają badacze, sukcesy te często opierają się na powtarzaniu znanych algorytmów i wzorców. Modele szkolone poprzez nadzorowane dostrajanie (SFT) lub uczenie wzmacniające (RL) często „uczą się” znanych technik algebraicnych lub uciekają się do geometrii analitycznej w problemach z diagramami. To ograniczenie staje się szczególnie widoczne w przypadku złożonych problemów, które wymagają nieszablonowych rozwiązań i prawdziwie twórczego podejścia.

Wyzwania w ocenie zdolności matematycznych LLM

Obecne zbiory danych do oceny umiejętności matematycznych LLM często nie spełniają wymagań. Szerokie korpusy, zawierające różnorodne pytania o zmiennym stopniu trudności, utrudniają precyzyjną izolację konkretnych umiejętności rozumowania. Metody testowania, takie jak generalizacja poza rozkładem (out-of-distribution generalization) oraz generalizacja kompozycyjna, są kluczowe dla oceny zdolności modeli do przystosowania się do nowych, nieznanych scenariuszy. Jednak istniejące benchmarki, tworzone przez inżynierów lub gromadzone z egzaminów, albo nie stanowią wystarczającego wyzwania dla najnowszych LLM, albo nie oferują wystarczającej granularności analizy.

OMEGA: nowy benchmark mierzący kreatywność rozumowania

W odpowiedzi na te wyzwania, konsorcjum badaczy z University of California, Ai2, University of Washington i dmodel.ai opracowało OMEGA – nowy benchmark zaprojektowany do ewaluacji trzech wymiarów generalizacji poza rozkładem, inspirowanych typologią kreatywności Margaret Boden. OMEGA koncentruje się na izolowaniu specyficznych umiejętności rozumowania w trzech kluczowych kategoriach: eksploracyjnej, kompozycyjnej i transformacyjnej.

Kluczem do OMEGA jest precyzyjne konstruowanie par problemów treningowych i testowych z wykorzystaniem szablonów. Pozwala to na ścisłą kontrolę nad różnorodnością, złożonością i wymaganymi strategiami rozumowania. Benchmark obejmuje 40 generatorów problemów, rozłożonych na sześć dziedzin matematyki: arytmetykę, algebrę, kombinatorykę, teorię liczb, geometrię oraz logikę i łamigłówki.

Testy i wyniki: co potrafią współczesne LLM?

Badacze poddali ocenie cztery wiodące modele: DeepSeek-R1, Claude-3.7-Sonnet, OpenAI-o3-mini i OpenAI-o4-mini, w różnych poziomach złożoności problemów. W eksperymentach z generalizacją RL wykorzystano algorytm GRPO na 1000 problemach treningowych z modelami Qwen2.5-7B-Instruct i Qwen2.5-Math-7B.

Analiza wyników ujawniła kilka kluczowych obserwacji:

  • Modele LLM mają tendencję do obniżania wydajności wraz ze wzrostem złożoności problemów, często znajdując poprawne rozwiązania na wczesnych etapach, ale marnując zbyt wiele tokenów na niepotrzebne weryfikacje.
  • Zastosowanie RL wyłącznie do problemów o niskiej złożoności znacząco poprawia generalizację do problemów o średniej złożoności, z większymi korzyściami w przypadku przykładów w domenie niż poza rozkładem. Sugeruje to, że RL skutecznie wzmacnia znajome wzorce. Przykładowo, w dziedzinie logiki „Zebra Logic” bazowy model osiągał zaledwie 30% dokładności, podczas gdy trening RL zwiększył wydajność o 61 punktów procentowych na przykładach w domenie i o 53 punkty procentowe na przykładach poza rozkładem, bez konieczności SFT.
  • Ważnym wnioskiem jest fakt, że uczenie wzmacniające, choć poprawia wydajność w zadaniach eksploracyjnych i wewnątrzrozszerzeniowych, ma ograniczone korzyści dla zadań kompozycyjnych i nie jest w stanie wywołać naprawdę nowych wzorców rozumowania.

Wnioski i kierunki dalszych badań

Badania przeprowadzone z użyciem benchmarku OMEGA wyraźnie wskazują na fundamentalne ograniczenie: uczenie wzmacniające może zwiększać szerokość i głębokość rozwiązywania problemów, ale nie jest w stanie wywołać „kreatywnych skoków” niezbędnych do prawdziwie transformacyjnego rozumowania. Te spostrzeżenia podkreślają, że choć AI doskonale radzi sobie z optymalizacją i wzmacnianiem istniejących ścieżek, brakuje jej zdolności do generowania prawdziwie nowatorskich rozwiązań. Dalsze prace powinny koncentrować się na metodach takich jak stopniowanie nauki (curriculum scaffolding) i kontrolery meta-rozumowania, aby umożliwić maszynom osiągnięcie wyższego poziomu abstrakcji i kreatywności w rozumowaniu matematycznym.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *