Microsoft AI prezentuje rStar2-Agent: model rozumowania matematycznego, który uczy się na błędach
W świecie sztucznej inteligencji często więcej uwagi poświęca się skalowaniu modeli niż doskonaleniu ich metod uczenia. Microsoft AI idzie pod prąd, prezentując rStar2-Agent – model o 14 miliardach parametrów, który osiąga przełomowe wyniki w rozumowaniu matematycznym dzięki agentowemu uczeniu się ze wzmocnieniem. Zamiast polegać na wydłużaniu łańcuchów rozumowania, rStar2-Agent aktywnie korzysta z narzędzi kodowania, weryfikuje hipotezy i uczy się na własnych błędach.
Koniec z „dłuższym myśleniem”?
Dotychczasowe postępy w rozumowaniu matematycznym opierały się na wydłużaniu procesów „myślenia” modeli. Problem w tym, że modele często pogłębiają błędy zamiast je korygować. Samorefleksja zawodzi, zwłaszcza gdy początkowe założenia są błędne. rStar2-Agent podchodzi do problemu inaczej: uczy się „mądrzejszego” myślenia, wykorzystując Python do weryfikacji i korekty rozumowania.
Agentowe uczenie się: interakcja z otoczeniem
rStar2-Agent to krok w stronę agentowego uczenia się ze wzmocnieniem. Model wchodzi w interakcje ze środowiskiem wykonawczym Python, pisze kod, analizuje wyniki i dostosowuje swoje podejście. To dynamiczny proces rozwiązywania problemów, przypominający pracę matematyków, którzy używają narzędzi obliczeniowych do weryfikacji intuicji.
Wyzwania infrastrukturalne i ich rozwiązania
Skalowanie agentowego uczenia się ze wzmocnieniem to wyzwanie techniczne. Generowanie dziesiątek tysięcy żądań wykonania kodu może spowalniać wykorzystanie GPU. Microsoft rozwiązał ten problem, tworząc rozproszoną usługę wykonawczą kodu, obsługującą 45 000 równoczesnych wywołań narzędzi z opóźnieniem poniżej sekundy. Użyto też dynamicznego harmonogramu, który przydziela pracę obliczeniową w oparciu o dostępność pamięci podręcznej GPU. Dzięki temu cały proces szkoleniowy ukończono w ciągu jednego tygodnia przy użyciu 64 GPU AMD MI300X.
GRPO-RoC: uczenie się na wysokiej jakości przykładach
Algorytmiczną innowacją jest Group Relative Policy Optimization with Resampling on Correct (GRPO-RoC). Tradycyjne uczenie się ze wzmocnieniem nagradza poprawne odpowiedzi, nawet jeśli proces rozumowania zawiera błędy. GRPO-RoC stosuje asymetryczną strategię próbkowania: nadpróbkowuje początkowe ślady rozumowania, zachowuje różnorodność nieudanych prób i filtruje pozytywne przykłady, aby podkreślić te z minimalną liczbą błędów.
Strategia szkoleniowa: od prostego do złożonego
Proces szkoleniowy składa się z trzech etapów. Pierwszy etap to nadzorowane dostrajanie, skupione na wykonywaniu instrukcji i formatowaniu narzędzi. Drugi etap wydłuża limit tokenów, umożliwiając bardziej złożone rozumowanie. Trzeci etap koncentruje się na najtrudniejszych problemach, zapewniając ciągłe uczenie się.
Przełomowe wyniki
rStar2-Agent-14B osiąga 80.6% dokładności na AIME24 i 69.8% na AIME25, przewyższając znacznie większe modele, takie jak DeepSeek-R1 (671B parametrów). Co więcej, model osiąga to z krótszymi śladami rozumowania.
Mechanizmy działania
Analiza modelu ujawnia ciekawe wzorce zachowań. Tokeny o wysokiej entropii dzielą się na „tokeny rozwidlenia”, wywołujące autorefleksję, oraz „tokeny refleksji”, pojawiające się w odpowiedzi na informacje zwrotne z narzędzi. Te drugie reprezentują formę rozumowania napędzanego przez środowisko.
Podsumowanie
rStar2-Agent pokazuje, że modele o umiarkowanej wielkości mogą osiągać przełomowy poziom rozumowania dzięki inteligentnemu szkoleniu. To bardziej zrównoważona droga do zaawansowanych możliwości AI, która stawia na efektywność, integrację narzędzi i inteligentne strategie uczenia się.
