Abstrakcyjna sieć neuronowa – mózg z synapsami, przepływ danych, cyfrowa grafika, intensywne kolory, wolumetryczne światło.

Google AI prezentuje Supervised Reinforcement Learning (SRL): Nowa strategia uczenia małych modeli językowych

2025-11-04 AI Sight

Wraz z dynamicznym rozwojem sztucznej inteligencji, rośnie zapotrzebowanie na modele zdolne do rozwiązywania coraz bardziej złożonych problemów. Tradycyjne metody, takie jak nadzorowane dostrajanie (SFT) czy uczenie ze wzmocnieniem oparte na wynikach (RL), często zawodzą w przypadku małych modeli językowych (LLM o rozmiarze 7B parametrów), particularly gdy mierzą się one z zadaniami wymagającymi logicznego rozumowania i precyzyjnego planowania.

SRL – nowa metodologia uczenia

Naukowcy z Google Cloud AI Research oraz UCLA opracowali nowatorski framework treningowy nazwany Supervised Reinforcement Learning (SRL). Ma on na celu sprostanie wyzwaniu, jakim jest nauczenie małych modeli językowych efektywnego rozwiązywania trudnych problemów. SRL różni się od konwencjonalnych podejść tym, że koncentruje się na optymalizacji w stylu uczenia ze wzmocnieniem, jednocześnie wprowadzając nadzór bezpośrednio do kanału nagród, a nie funkcji straty.

Kluczową innowacją SRL jest dekonstrukcja trajektorii eksperckich na sekwencje działań. Dla każdego prefiksu takiej sekwencji, model generuje wewnętrzny „monolog” otoczony tagami a następnie proponuje konkretne działanie. Dopiero to działanie jest porównywane z działaniem eksperckim, wykorzystując metrykę podobieństwa sekwencji. Taki system nagród jest „gęsty”, co oznacza, że każdy krok otrzymuje ocenę, nawet jeśli ostateczna odpowiedź jest niepoprawna. Co istotne, etap rozumowania pozostaje nieograniczony, co pozwala modelowi na własne poszukiwania i unikanie dosłownego kopiowania trajektorii eksperta.

Wyniki w matematyce i inżynierii oprogramowania

Testy przeprowadzone na zestawach matematycznych s1K 1.1 z wykorzystaniem modelu Qwen2.5 7B Instruct wykazały znaczną poprawę. Samodzielne zastosowanie SRL zniwelowało negatywne skutki stosowania SFT i zwiększyło wyniki na benchmarkach AIME24 i AIME25. Co więcej, połączenie SRL z metodą RLVR (Reinforcement Learning with Value Regularization) przyniosło najlepsze dotychczas osiągnięcia w otwartych źródłach dla tych zadań, potwierdzając, że optymalna konfiguracja to sekwencja SRL, a następnie RLVR.

Potencjał SRL nie ogranicza się wyłącznie do matematyki. Technika ta została również zastosowana w obszarze inżynierii oprogramowania, gdzie model Qwen2.5 Coder 7B Instruct trenowany na 5,000 zweryfikowanych trajektoriach od Claude 3 Sonnet, wykazał znaczną poprawę. Na benchmarku SWE Bench Verified, SRL osiągnęło 14,8% w trybie edycji plików i 8,6% end-to-end. Jest to wynik niemal dwukrotnie lepszy od modelu bazowego i znacząco przewyższający baseline SFT (SWE Gym 7B).

Kluczowe wnioski i przyszłość otwartych modeli

Metoda SRL wyróżnia się tym, że pozwala na skuteczną naukę nawet w przypadku niekompletnych lub błędnych ostatecznych rozwiązań, dostarczając precyzyjny sygnał nagrody na każdym etapie. W przeciwieństwie do SFT, SRL nie prowadzi do przeuczenia na długich demonstracjach, a w odróżnieniu od RLVR, nie załamuje się w sytuacjach, gdy nie ma poprawnego „rozwiązania końcowego” (rolloutu).

Warto również podkreślić, że SRL jest podejściem praktycznym i skalowalnym. Zachowuje optymalizację w stylu GRPO, wykorzystując jedynie działania z trajektorii eksperckich i lekką metrykę podobieństwa ciągów znaków. Dzięki temu jest łatwe do zaimplementowania w przypadku małych, trudnych zestawów danych, bez potrzeby stosowania dodatkowych, złożonych modeli nagród.

Wprowadzenie SRL stanowi istotny krok naprzód w zdolności małych modeli językowych do rozumowania i rozwiązywania złożonych problemów. Zdolność do efektywnego uczenia się z trajektorii eksperckich, nawet w trudnych reżimach, gdzie inne metody zawodziły, otwiera nową ścieżkę dla zespołów rozwijających otwarte modele. SRL jest swoistym ogniwem łączącym nadzór procesu z uczeniem ze wzmocnieniem, co sprawia, że może stać się powszechnie przyjętym narzędziem w krótkim czasie.

SRL – nowa metodologia uczenia

Wyniki w matematyce i inżynierii oprogramowania

Kluczowe wnioski i przyszłość otwartych modeli

Udostępnij:

Zobacz również

Lokalna AI w natarciu: gpt-oss-20B i PC z RTX przenoszą moc modeli z chmury na biurko

Microsoft a OpenAI: eskalacja sporu o przyszłość sztucznej inteligencji

ReVisual-R1: Nowe otwarcie w multimodalnym rozumowaniu AI

Dodaj komentarz Anuluj pisanie odpowiedzi