Przełom w rozumowaniu modeli AI: Polaris redefiniuje efektywność
Rozwój modeli sztucznej inteligencji zdolnych do skomplikowanych operacji rozumowania, takich jak rozwiązywanie problemów matematycznych czy logicznych, od dawna stanowi wyzwanie. Dotychczasowe podejścia, bazujące na uczeniu wzmacnianym (reinforcement learning – RL), choć skuteczne dla mniejszych architektur, często okazywały się niewydajne, a nawet kontraproduktywne przy próbach skalowania ich do większych modeli. Kluczowymi problemami były niedopasowanie poziomu trudności danych treningowych do możliwości modelu oraz brak elastyczności w adaptowaniu różnorodności danych.
Istniejące metody, takie jak DeepScaleR czy GRPO, pokazały, że reinforcement learning może poprawiać wydajność modeli rozumujących o parametrach rzędu 1,5 miliarda. Jednakże, próby zastosowania tych samych strategii do bardziej zaawansowanych modeli, takich jak Qwen3-4B czy Deepseek-R1-Distill-Qwen-7B, często prowadziły do marginalnych zysków lub nawet spadków wydajności. Głównym ograniczeniem była statyczna dystrybucja danych i ograniczona różnorodność próbek. Większość tych podejść nie filtrowała danych w oparciu o możliwości modelu, ani nie dostosowywała temperatury samplowania czy długości odpowiedzi w czasie, co skutkowało brakiem efektywnego skalowania na bardziej zaawansowanych architekturach. Wskazuje to na potrzebę głębszego zastanowienia się nad fundamentalnymi założeniami, na których opiera się uczenie wzmacniane w kontekście skalowania.
Polaris: Innowacyjne Podejście do Skalowania RL
Odpowiedzią na te wyzwania jest Polaris, opracowany przez badaczy z University of Hong Kong, Bytedance Seed i Fudan University. Jest to post-treningowa receptura zaprojektowana specjalnie do skalowania uczenia wzmacnianego w zaawansowanych zadaniach rozumowania. Projekt zakładał stworzenie dwu modeli demonstracyjnych: Polaris-4B-Preview i Polaris-7B-Preview, opartych odpowiednio na Qwen3-4B i Deepseek-R1-Distill-Qwen-7B. Celem badaczy było zbudowanie niezależnej od modelu struktury, która modyfikuje trudność danych, zachęca do różnorodnej eksploracji poprzez kontrolowane temperatury samplowania oraz rozszerza możliwości wnioskowania poprzez ekstrapolację długości kontekstu. Co ważne, wszystkie te strategie zostały opracowane z wykorzystaniem otwartych zbiorów danych i potoków szkoleniowych, a oba modele są zoptymalizowane do działania na konsumenckich kartach graficznych.
Kluczowe Innowacje Polaris
Polaris wprowadza kilka kluczowych innowacji. Po pierwsze, dane treningowe są precyzyjnie selekcjonowane poprzez usuwanie problemów zbyt łatwych lub niemożliwych do rozwiązania, co prowadzi do stworzenia rozkładu trudności w kształcie odzwierciedlającym literę J. Takie podejście gwarantuje, że dane treningowe ewoluują wraz ze wzrostem możliwości modelu. Po drugie, badacze dynamicznie dostosowują temperaturę samplowania na różnych etapach treningu, aby utrzymać pożądaną różnorodność rzutów. Na przykład, dla Polaris-4B używane są temperatury 1.4, 1.45 i 1.5, natomiast dla Polaris-7B odpowiednio 0.7, 1.0 i 1.1. Ponadto, zastosowano technikę ekstrapolacji opartą na Yarn, która pozwala rozszerzyć długość kontekstu wnioskowania do 96 tys. tokenów bez konieczności dodatkowego treningu. Rozwiązuje to problem nieefektywności treningu na długich sekwencjach, wdrażając podejście „train-short, test-long”. Dodatkowo, model wykorzystuje mechanizmy takie jak Rollout Rescue Mechanism i Intra-Batch Informative Substitution, by zapobiec zerowym grupom nagród i zapewnić zachowanie użytecznych sygnałów treningowych, nawet przy małym rozmiarze rzutowania wynoszącym 8.
Wyniki i Perspektywy
Modele Polaris osiągnęły wyniki na światowym poziomie w wielu testach matematycznych. Polaris-4B-Preview odnotował 81,2% dokładności na AIME24 i 79,4% na AIME25, wyprzedzając nawet Qwen3-32B, mimo że wykorzystuje mniej niż 2% jego parametrów. Uzyskał również 44,0% na Minerva Math, 69,1% na Olympiad Bench i 94,8% na AMC23. Polaris-7B-Preview również wykazał się wysoką wydajnością, uzyskując 72,6% na AIME24 i 52,6% na AIME25. Wyniki te demonstrują stałą poprawę w stosunku do modeli takich jak Claude-4-Opus i Grok-3-Beta, ustanawiając Polaris jako konkurencyjny, lekki model, który zmniejsza lukę wydajnościową między małymi otwartymi modelami a komercyjnymi systemami z ponad 30 miliardami parametrów.
Prace nad Polaris dowodzą, że kluczem do skalowania modeli rozumujących nie jest jedynie zwiększanie ich rozmiaru, ale inteligentne kontrolowanie trudności danych treningowych, różnorodności próbkowania i długości wnioskowania. Polaris oferuje powtarzalną recepturę, która efektywnie dostraja te elementy, umożliwiając mniejszym modelom dorównanie zdolnościom rozumowania potężnych systemów komercyjnych. To przełomowe osiągnięcie, które może znacząco wpłynąć na rozwój dostępnej i efektywnej sztucznej inteligencji.
