Google AI prezentuje Supervised Reinforcement Learning (SRL): Nowa strategia uczenia małych modeli językowych
Wraz z dynamicznym rozwojem sztucznej inteligencji, rośnie zapotrzebowanie na modele zdolne do rozwiązywania coraz bardziej złożonych problemów. Tradycyjne metody, takie jak nadzorowane dostrajanie (SFT) czy uczenie ze wzmocnieniem oparte na wynikach (RL), często zawodzą w przypadku małych modeli językowych (LLM o rozmiarze 7B parametrów), particularly gdy mierzą się one z zadaniami wymagającymi logicznego rozumowania i precyzyjnego planowania.
SRL – nowa metodologia uczenia
Naukowcy z Google Cloud AI Research oraz UCLA opracowali nowatorski framework treningowy nazwany Supervised Reinforcement Learning (SRL). Ma on na celu sprostanie wyzwaniu, jakim jest nauczenie małych modeli językowych efektywnego rozwiązywania trudnych problemów. SRL różni się od konwencjonalnych podejść tym, że koncentruje się na optymalizacji w stylu uczenia ze wzmocnieniem, jednocześnie wprowadzając nadzór bezpośrednio do kanału nagród, a nie funkcji straty.
Kluczową innowacją SRL jest dekonstrukcja trajektorii eksperckich na sekwencje działań. Dla każdego prefiksu takiej sekwencji, model generuje wewnętrzny „monolog” otoczony tagami a następnie proponuje konkretne działanie. Dopiero to działanie jest porównywane z działaniem eksperckim, wykorzystując metrykę podobieństwa sekwencji. Taki system nagród jest „gęsty”, co oznacza, że każdy krok otrzymuje ocenę, nawet jeśli ostateczna odpowiedź jest niepoprawna. Co istotne, etap rozumowania pozostaje nieograniczony, co pozwala modelowi na własne poszukiwania i unikanie dosłownego kopiowania trajektorii eksperta.
Wyniki w matematyce i inżynierii oprogramowania
Testy przeprowadzone na zestawach matematycznych s1K 1.1 z wykorzystaniem modelu Qwen2.5 7B Instruct wykazały znaczną poprawę. Samodzielne zastosowanie SRL zniwelowało negatywne skutki stosowania SFT i zwiększyło wyniki na benchmarkach AIME24 i AIME25. Co więcej, połączenie SRL z metodą RLVR (Reinforcement Learning with Value Regularization) przyniosło najlepsze dotychczas osiągnięcia w otwartych źródłach dla tych zadań, potwierdzając, że optymalna konfiguracja to sekwencja SRL, a następnie RLVR.
Potencjał SRL nie ogranicza się wyłącznie do matematyki. Technika ta została również zastosowana w obszarze inżynierii oprogramowania, gdzie model Qwen2.5 Coder 7B Instruct trenowany na 5,000 zweryfikowanych trajektoriach od Claude 3 Sonnet, wykazał znaczną poprawę. Na benchmarku SWE Bench Verified, SRL osiągnęło 14,8% w trybie edycji plików i 8,6% end-to-end. Jest to wynik niemal dwukrotnie lepszy od modelu bazowego i znacząco przewyższający baseline SFT (SWE Gym 7B).
Kluczowe wnioski i przyszłość otwartych modeli
Metoda SRL wyróżnia się tym, że pozwala na skuteczną naukę nawet w przypadku niekompletnych lub błędnych ostatecznych rozwiązań, dostarczając precyzyjny sygnał nagrody na każdym etapie. W przeciwieństwie do SFT, SRL nie prowadzi do przeuczenia na długich demonstracjach, a w odróżnieniu od RLVR, nie załamuje się w sytuacjach, gdy nie ma poprawnego „rozwiązania końcowego” (rolloutu).
Warto również podkreślić, że SRL jest podejściem praktycznym i skalowalnym. Zachowuje optymalizację w stylu GRPO, wykorzystując jedynie działania z trajektorii eksperckich i lekką metrykę podobieństwa ciągów znaków. Dzięki temu jest łatwe do zaimplementowania w przypadku małych, trudnych zestawów danych, bez potrzeby stosowania dodatkowych, złożonych modeli nagród.
Wprowadzenie SRL stanowi istotny krok naprzód w zdolności małych modeli językowych do rozumowania i rozwiązywania złożonych problemów. Zdolność do efektywnego uczenia się z trajektorii eksperckich, nawet w trudnych reżimach, gdzie inne metody zawodziły, otwiera nową ścieżkę dla zespołów rozwijających otwarte modele. SRL jest swoistym ogniwem łączącym nadzór procesu z uczeniem ze wzmocnieniem, co sprawia, że może stać się powszechnie przyjętym narzędziem w krótkim czasie.
