Nowe możliwości w skalowaniu Reinforced Learning dla modeli Llama: Projekt OctoThinker
Uczenie wzmacniające (RL) w połączeniu z podpowiedziami Chain-of-Thought (CoT) stało się kluczowym elementem w rozwoju dużych modeli językowych (LLM). Dzięki temu podejściu modele takie jak Deepseek-R1-Zero czy warianty Qwen osiągnęły imponujące zdolności rozumowania. Jednakże, przeniesienie tych sukcesów na inne rodziny modeli, w szczególności na popularne modele Llama, okazało się wyzwaniem. Problem ten leży u podstaw badań zespołu z Uniwersytetu Jiao Tong w Szanghaju, który przedstawił obiecujące rozwiązanie w postaci projektu OctoThinker.
Istotna rozbieżność w zachowaniu modeli Llama i Qwen podczas skalowania RL od dawna intrygowała badaczy. Podczas gdy modele Qwen wykazują stabilny postęp i przewidywalne zachowanie w odpowiedziach, Llama często reaguje niekontrolowanym wydłużaniem generowanych tekstów, co skutkuje niestabilnością i brakiem efektywności w procesie uczenia. Problem ten, jak zauważa sam zespół, jest częściowo zakorzeniony w braku przejrzystości pre-treningowych potoków, co utrudnia zrozumienie, jak wcześniejsze etapy wpływają na późniejsze skalowanie RL. Nawet próby wzbogacania korpusów danych dla pre-treningu, takie jak OpenWebMath czy MathPile, choć wartościowe, nie rozwiązywały problemu w pełni, zwłaszcza w kontekście modeli poniżej 100 miliardów parametrów.
Nowa strategia mid-treningu: Stable-then-Decay
Kluczem do rozwiązania tej dysproporcji okazała się nowatorska strategia mid-treningu, czyli treningu pośredniego, zaprezentowana przez zespół z Jiao Tong jako Stable-then-Decay. Badacze zidentyfikowali kilka kluczowych obserwacji. Po pierwsze, wykorzystanie wysokiej jakości zbiorów danych matematycznych, takich jak MegaMath-Web-Pro, znacząco poprawia wyniki zarówno modeli bazowych, jak i tych trenowanych z RL. Po drugie, dane w formacie pytań i odpowiedzi (QA) z długimi ścieżkami CoT dodatkowo wzmacniają wyniki RL. Po trzecie, paradoksalnie, długie CoT może wprowadzać niestabilność i zwiększoną werbalność. Ostatecznie, zastosowanie odpowiedniego skalowania w mid-treningu przekłada się na znacznie lepszą wydajność późniejszą w RL.
Strategia Stable-then-Decay polega na dwuetapowym procesie. W pierwszej fazie, modele bazowe są trenowane na 200 miliardach tokenów. Następnie, w drugiej fazie, następuje transfer na 20 miliardów tokenów, skupiając się na trzech specyficznych gałęziach CoT. Efektem tego procesu są modele OctoThinker, które wykazują zaskakująco wysoką kompatybilność z RL, zwłaszcza w kontekście rodziny Llama.
Wyniki i porównanie wydajności
Przeprowadzone testy na zbiorze danych MATH8K, z wykorzystaniem modeli Llama-3.2-3B-Base oraz Qwen2.5-3B-Base, wykazały znaczącą poprawę. Podczas gdy standardowe modele Llama wciąż wykazywały niekontrolowane wydłużanie odpowiedzi, generując średnio 4096 tokenów, modele Qwen utrzymywały rozsądną długość. Jednak to OctoThinker-Long-3B, powstały z przekształconej Llama-3.2-3B, zdołał osiągnąć parytet wydajności z Qwen2.5-3B, modelem znanym z wysokich zdolności rozumowania i obszernego pre-treningu.
Ocena na 13 benchmarkach matematycznych, w tym GSM8K, MATH500, OlympiadBench i AMC23, ujawniła, że każda gałąź OctoThinker poprawiła oryginalny model bazowy Llama o 10-20%. W szczególności wariant OctoThinker-Long pokazał wyjątkowo silne wyniki w kontekście skalowania RL, co zwiastuje jego potencjał w zastosowaniach wymagających złożonego rozumowania.
Kierunki dalszych badań
Badania nad OctoThinker nie tylko dostarczają praktycznego rozwiązania dla problemu skalowania RL w modelach Llama, ale także otwierają nowe perspektywy dla przyszłych prac. Naukowcy planują dalsze udoskonalanie korpusów danych dla mid-treningu, tworzenie modeli bazowych „przyjaznych dla RL” bez potrzeby destylacji z długich modeli CoT, a także głębsze badanie wpływu formatu QA na efektywność RL. Rozszerzenie rodziny OctoThinker o nowe gałęzie, np. integrujące narzędzia zewnętrzne, to kolejny krok w kierunku rozbudowy możliwości tych modeli. Odpowiedź na pytanie, dlaczego niektóre modele bazowe są inherentnie bardziej podatne na skalowanie RL, wciąż pozostaje przedmiotem intensywnych badań, a projekt OctoThinker z pewnością przyczynia się do jej zrozumienia.
