Iridescentny ośmiornica z ośmioma świecącymi mózgami, symbolizująca OctoThinker - przełom w uczeniu ze wzmocnieniem LLM.

OctoThinker: Przełom w skalowaniu uczenia ze wzmocnieniem dla modeli językowych

2025-07-04 AI Sight

Uczenie ze wzmocnieniem (RL) w połączeniu z podpowiedziami Chain-of-Thought (CoT) znacząco wpłynęło na rozwój dużych modeli językowych (LLM), umożliwiając im skuteczne rozwiązywanie złożonych zadań rozumowania. Przykładami są tu modele takie jak Deepseek-R1-Zero, czy rozwiązania usprawniające mniejsze modele, jak SimpleRL i Open-ReasonerZero dla serii Qwen.

Mimo tych postępów, aplikacja metod RL w sposób skalowalny i spójny dla różnych rodzin modeli bazowych pozostaje wyzwaniem. Szczególnie problematyczne okazuje się replikowanie sukcesów osiągniętych z modelami Qwen na innych architekturach, takich jak seria Llama. Dotąd brakowało zrozumienia, dlaczego różne modele podstawowe wykazują niejednolite zachowania podczas uczenia ze wzmocnieniem. Niejasność w procesach wstępnego trenowania utrudniała identyfikację czynników wpływających na skalowanie RL, co prowadziło do niekonwencjonalnych badań, np. tych wykazujących, że podpowiedzi jednokrotne (one-shot prompting) poprawiają rozumowanie w Qwen, ale w Llama przynoszą niewielkie korzyści. Mimo wysiłków w tworzeniu wysokiej jakości korpusów matematycznych, jak OpenWebMath czy FineMath, ich skala jest wciąż ograniczona do mniej niż 100 miliardów tokenów.

Metoda Stable-then-Decay, czyli klucz do sukcesu

Naukowcy z Uniwersytetu Jiao Tong w Szanghaju skoncentrowali się na badaniu, w jaki sposób strategie trenowania w środkowej fazie (mid-training) wpływają na dynamikę RL. Ich praca ujawniła kilka kluczowych spostrzeżeń. Wysokiej jakości korpusy matematyczne, takie jak MegaMath-Web-Pro, znacząco poprawiają wyniki zarówno modeli bazowych, jak i te uzyskane po zastosowaniu RL. Ponadto, wykorzystanie danych w stylu pytań i odpowiedzi (QA), zwłaszcza tych z długim rozumowaniem CoT, dodatkowo wzmacnia efekty RL. Badacze zauważyli jednak, że długie CoT mogą wprowadzać nadmierną gadatliwość i niestabilność w treningu RL. Co najważniejsze, skalowanie podczas mid-trainingu przekłada się na znacznie lepszą wydajność RL. Na tej podstawie, zespół wprowadził dwuetapową strategię mid-trainingu nazwaną Stable-then-Decay.

W pierwszym etapie, modele bazowe są trenowane na 200 miliardach tokenów. Następnie, w drugim etapie, następuje trening na 20 miliardach tokenów w ramach trzech gałęzi skoncentrowanych na CoT. Rezultatem tego podejścia jest seria modeli OctoThinker, które wykazują silną kompatybilność z uczeniem ze wzmocnieniem.

Wyniki I Analiza

Do treningu RL badacze wykorzystali zestaw danych MATH8K, stosując globalną wielkość partii treningowej 128, 16 odpowiedzi na zapytanie oraz mini-partię PPO o rozmiarze 64. Eksperymenty przeprowadzono na modelach Llama-3.2-3B-Base i Qwen2.5-3B-Base. W ocenie, modele bazowe wykorzystywały podpowiedzi few-shot, natomiast modele dostrojone za pomocą RL — zero-shot. Zastosowano popularne benchmarki takie jak GSM8K, MATH500, OlympiadBench i AMC23.

Podczas treningu RL, modele Qwen wykazywały rozsądny, rosnący wzrost długości odpowiedzi, podczas gdy Llama zachowywała się nietypowo, zwiększając średnią długość odpowiedzi do 4096 tokenów. Ocena wykazała, że Qwen2.5-3B dostrojony za pomocą RL osiągnął znaczną poprawę w benchmarkach, natomiast Llama-3.2-3B odnotował jedynie marginalne zyski.

OctoThinker Przewyższa Llama w Kompatybilności z Uzeniem ze Wzmocnieniem

Każda gałąź OctoThinker wykazuje od 10 do 20% poprawę w stosunku do oryginalnego modelu bazowego Llama oraz stałe zyski w porównaniu z modelem ze stabilnej fazy, we wszystkich rozmiarach, oceniane na 13 benchmarkach matematycznych. Rodziny OctoThinker-Zero ujawniają zróżnicowane zachowania myślowe podczas skalowania RL, a silne wyniki odnotowano w wariancie OctoThinker-Long. Porównując trzy modele bazowe o wielkości 3B podczas treningu RL, OctoThinker-Long-3B przewyższa oryginalny model Llama-3.2-3B i osiąga porównywalną wydajność z Qwen2.5-3B – modelem znanym z silnych zdolności rozumowania i obszernego wstępnego treningu. Gałęzie hybrydowe i krótkie wykazują nieco niższą wydajność, szczególnie w trudniejszych benchmarkach.

Wnioski i Perspektywy

Badacze z Uniwersytetu Jiao Tong w Szanghaju udowodnili, że strategia mid-trainingu ma fundamentalne znaczenie dla skalowalności uczenia ze wzmocnieniem dla modeli językowych, wyjaśniając tym samym odmienne zachowania modeli Llama i Qwen. Dwustopniowa strategia Stable-then-Decay przekształca Llama w model lepiej dostosowany do RL. W perspektywie, przyszłe badania skupią się na tworzeniu jeszcze wyższej jakości korpusów matematycznych, opracowywaniu modeli bazowych z natywną kompatybilnością z RL, analizie wpływu formatu i treści QA oraz rozszerzaniu rodziny OctoThinker o nowe gałęzie, np. zintegrowane z narzędziami.

Metoda Stable-then-Decay, czyli klucz do sukcesu

Wyniki I Analiza

OctoThinker Przewyższa Llama w Kompatybilności z Uzeniem ze Wzmocnieniem

Wnioski i Perspektywy

Udostępnij:

Zobacz również

MiniMax M2: Otwarty model dla programistów i autonomicznych agentów

DeepSeek-OCR 3B kompresuje strony do setek tokenów. Nowy VLM do OCR i strukturyzacji dokumentów

Alibaba redefiniuje małe modele językowe: Qwen3-4B-Instruct-2507 i Qwen3-4B-Thinking-2507 z 256K kontekstem

Dodaj komentarz Anuluj pisanie odpowiedzi