LLM

Alibaba przełamuje granice w optymalizacji modeli językowych dzięki GSPO

Optymalizacja modeli językowych, zwłaszcza tych największych, opiera się w dużej mierze na uczeniu ze wzmocnieniem (RL). To właśnie Reinforcement Learning umożliwia im radzenie sobie z wyzwaniami o złożonym charakterze, takimi jak problematyczne zadania matematyczne czy programowanie na poziomie konkursowym. Jednakże, skalowanie RL przy użyciu większych zasobów obliczeniowych stawia przed badaczami poważne wyzwania, głównie w kontekście osiągnięcia stabilnego i przewidywalnego procesu treningowego. Dotychczasowe algorytmy, w tym GRPO, borykają się z istotnymi niestabilnościami, które często prowadzą do katastrofalnych awarii podczas treningu gigantycznych modeli językowych.

Główną przyczyną tych niestabilności jest niewłaściwe zastosowanie wag próbkowania ważności (importance sampling), co generuje wysokoszumowe zakłócenia. Te zakłócenia kumulują się wraz z wydłużaniem się odpowiedzi i są dodatkowo potęgowane przez mechanizmy obcinania (clipping). W efekcie prowadzi to do załamania się (model collapse) modelu, co skutecznie hamuje dalszy postęp w jego rozwoju. Istniejące metody, takie jak PPO i GRPO, polegają na mechanizmach obcinania w celu rozwiązania problemów związanych z uczeniem off-policy, gdzie odpowiedzi pochodzą z nieaktualnych polityk. Jednakże, te podejścia mają swoje ograniczenia, wynikające z nieprecyzyjnych celów, zwłaszcza w przypadku dużych modeli, które muszą radzić sobie z zadaniami wymagającymi długich odpowiedzi. Próbki ważności na poziomie tokenów, stosowane w GRPO, wprowadzają wysokoszumowe zakłócenia i nieodwracalne załamanie się modelu. Próby odzyskania sprawności poprzez strojenie hiperparametrów czy przywracanie punktów kontrolnych są nieskuteczne, co wskazuje na fundamentalną wadę projektową. Niezgodność między korektami na poziomie tokenów a nagrodami na poziomie sekwencji podkreśla potrzebę nowego podejścia, które optymalizuje bezpośrednio na poziomie sekwencji, aby zapewnić stabilność i skalowalność.

GSPO: Rewolucja w optymalizacji modeli

Naukowcy z firmy Alibaba Inc. zaproponowali nowatorski algorytm Group Sequence Policy Optimization (GSPO), zaprojektowany do treningu dużych modeli językowych (LLM). Główna innowacja GSPO polega na jego teoretycznie ugruntowanym współczynniku ważności, wyprowadzonym z prawdopodobieństwa sekwencji, co jest zgodne z zasadami próbkowania ważności. Dodatkowo, algorytm oblicza znormalizowane nagrody jako advantages dla wielu odpowiedzi na zapytanie, promując spójność między nagrodami na poziomie sekwencji a celami optymalizacji. Badania empiryczne wyraźnie pokazują, że GSPO znacznie przewyższa GRPO pod względem stabilności, wydajności i ogólnej funkcjonalności. Rozwiązując problemy ze stabilnością podczas treningu dużych modeli typu Mixture-of-Experts (MoE), GSPO eliminuje potrzebę skomplikowanych technik stabilizacyjnych.

Testy i wyniki

W ramach eksperymentów naukowcy wykorzystali model „cold-start” dostrojony z Qwen3-30B-A3B-Base. Przedstawiono krzywe nagród treningowych oraz krzywe wydajności modelu w benchmarkach AIME’24, LiveCodeBench i CodeForces. Podczas treningu dane z próbkowania w każdej partii są dzielone na cztery mini-partie w celu aktualizacji gradientów. GSPO obcina całe odpowiedzi, a nie pojedyncze tokeny, z zakresami obcinania ustawionymi na 3e-4 i 4e-4 w jego formulacji. To prowadzi do różnicy w obciętych frakcjach tokenów o dwa rzędy wielkości w porównaniu do GRPO. Pomimo usunięcia większej liczby tokenów do estymacji gradientu, GSPO osiąga wyższą efektywność treningu. Ten wynik podkreśla nieefektywność szumnych estymacji GRPO na poziomie tokenów.

Usprawnienia i przyszłość

GSPO oferuje znaczące korzyści dla treningu modeli MoE, stabilizując proces poprzez spójne aktywacje ekspertów w trakcie aktualizacji gradientów, w przeciwieństwie do GRPO, które boryka się z niestabilnością aktywacji ekspertów. Eliminuje to potrzebę skomplikowanych rozwiązań, takich jak Routing Replay, upraszczając infrastrukturę i umożliwiając modelom wykorzystanie ich pełnego potencjału. W infrastrukturze RL, optymalizacja GSPO na poziomie sekwencji zmniejsza zależność od prawdopodobieństw na poziomie tokenów, czyniąc ją bardziej odporną na niedokładności. Umożliwia to bezpośrednie wykorzystanie prawdopodobieństw silnika wnioskującego, unikając kosztownych ponownych obliczeń i poprawiając efektywność w częściowych próbkowaniach i wieloetapowym RL. GSPO usprawnia również infrastrukturę RL dla treningu dużych modeli językowych.

Podsumowując, wprowadzenie przez badaczy z Alibaby algorytmu Group Sequence Policy Optimization (GSPO) stanowi przełom w treningu LLM. Opierając się na zasadach próbkowania ważności, GSPO wprowadza obcinanie, nagradzanie i optymalizację na poziomie sekwencji, aby przezwyciężyć niestabilność i nieefektywność obserwowane w GRPO. Jego doskonała wydajność w zakresie stabilności treningu, efektywności i skalowalności, szczególnie dla modeli MoE, podkreśla jego znaczenie jako silnego fundamentu algorytmicznego. Postępy możliwe dzięki GSPO odegrały kluczową rolę w niezwykłej wydajności modeli Qwen3. Bazując na GSPO jako podstawowym podejściu, naukowcy planują rozszerzyć metody RL, otwierając drogę do przełomowych osiągnięć w dziedzinie sztucznej inteligencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *