Edukacja

Sakana AI przedstawia nauczycieli wspomaganych uczeniem wzmacnianym: Nowe podejście do destylacji wiedzy w dużych modelach językowych

Współczesne duże modele językowe (LLM) zrewolucjonizowały wiele obszarów przetwarzania języka naturalnego, jednak ich efektywne trenowanie i destylacja wiedzy wciąż stanowią wyzwanie. Szczególnie problematyczne okazuje się tradycyjne uczenie wzmacniane (RL), którego zastosowanie w LLM jest często utrudnione z powodu rozrzedzonego sygnału nagrody i ogromnych wymagań obliczeniowych.

Firma Sakana AI wyszła naprzeciw tym problemom, wprowadzając innowacyjną koncepcję: Reinforcement-Learned Teachers (RLTs), czyli Nauczycieli wspomaganych Uczuciem Wzmacnianym. To podejście redefiniuje paradygmat uczeń-nauczyciel, gdzie zamiast trenować modele do samodzielnego rozwiązywania problemów, szkoli się mniejsze jednostki, by działały jako zoptymalizowani instruktorzy, generujący krok po kroku wyjaśnienia, a nie jedynie gotowe rozwiązania.

Przesunięcie paradygmatu w uczeniu wzmacnianym

Tradycyjne konfiguracje RL koncentrują się na szkoleniu modeli do autonomicznego rozwiązywania zadań, gdzie nagroda bazuje głównie na poprawności końcowego wyniku. Kiedy takie modele są później wykorzystywane do nauczania mniejszych jednostek poprzez generowanie ścieżek rozumowania, pojawia się niespójność. Cel RL (rozwiązywanie problemów) nie jest zbieżny z celem destylacji (nauczanie).

RLT-y rozwiązują ten problem bezpośrednio. Modele RLT otrzymują zarówno problem, jak i jego rozwiązanie, a ich zadaniem jest wygenerowanie szczegółowego, pedagogicznego wyjaśnienia. Sygnał nagrody jest gęsty i skoncentrowany na uczniu: mierzy, jak dobrze model-uczeń rozumie wyjaśnienie i odtwarza rozwiązanie. To odróżnia RLT od konwencjonalnych metod, gdzie eksploracja przestrzeni rozwiązań jest wąskim gardłem, zwłaszcza dla mniejszych instancji.

W centrum koncepcji RLT leżą dwa kluczowe składniki nagrody:

  • Ocena Rozwiązania (rSS): Kwantyfikuje zdolność ucznia do zrekonstruowania poprawnego rozwiązania na podstawie wyjaśnienia i problemu.
  • Ocena Wyjaśnienia (rKL): Mierzy spójność logiczną wyjaśnienia nauczyciela z perspektywy ucznia.

Połączenie tych dwóch miar tworzy gęsty sygnał nagrody, który promuje wyjaśnienia jednocześnie pouczające i zrozumiałe. To eliminuje typowe dla tradycyjnego RL problemy z eksploracją, umożliwiając mniejszym modelom efektywne trenowanie.

Niewielcy nauczyciele z zaskakującą skutecznością

Badania Sakana AI dowodzą, że 7-miliardowy model RLT (RLT-7B) przewyższa znacznie większe LLM (ponad 32 miliardy parametrów) w zadaniach destylacji wiedzy. Testy przeprowadzone na wymagających zbiorach danych, takich jak AIME 2024, MATH 500 i GPQA Diamond, wykazały znaczącą przewagę RLT. Na zbiorze 17 000 pytań, RLT-7B osiągnął lepsze wyniki niż DeepSeek R1, Bespoke-7B, a nawet ślady RL poddane post-processingowi. Co więcej, RLT-32B, mimo że został wydestylowany z mniejszego nauczyciela, przewyższył wszystkie 32-miliardowe modele bazowe.

Skuteczność RLT wykracza poza samą efektywność parametrów. Modele te wykazują lepszą generalizację, mniej błędów formatowania i wyższą interpretowalność. Mają także zastosowanie w tzw. „zimnym starcie” (cold-starting) uczenia wzmacnianego, gdzie początkowy model jest bootstrappingowany danymi zewnętrznymi przed formalnym treningiem RL. Ślady generowane przez RLT okazały się bardziej efektywnym materiałem do tego procesu niż te pochodzące z większych modeli trenowanych tradycyjnym RL.

Co istotne, nawet bez dodatkowego przetwarzania czy rafinowania (np. za pomocą GPT-4.1), wyjaśnienia generowane przez RLT skutkują większymi zyskami wydajności po dostrojeniu RL. Pokazuje to znaczną elastyczność i potencjał RLT w różnych scenariuszach aplikacyjnych.

Generalizacja i transfer zero-shot

RLT demonstruje również silne zdolności do transferu wiedzy w trybie zero-shot. Zastosowane w nowej dziedzinie, takiej jak zadanie arytmetyczne „Countdown”, ślady trenowane przez RLT umożliwiły modelom-uczniom przewyższenie nawet bezpośredniego RL w tej dziedzinie. Sugeruje to, że umiejętność „wyjaśniania rozwiązania” generalizuje się łatwiej między zadaniami niż umiejętność „rozwiązywania od podstaw”. W praktyce oznacza to lepszą możliwość ponownego wykorzystania modeli RL skoncentrowanych na nauczaniu.

Efektywny i skalowalny proces treningowy

Proces treningu RLT jest obliczeniowo oszczędny i skalowalny. Wymaga zaledwie 250 kroków RL (około jednej epoki), z rozmiarem partii 256 i rozmiarem grupy 64. Trening odbywa się na pojedynczym węźle z Qwen2.5-7B-Instruct. W przeciwieństwie do tradycyjnych potoków RL, RLT nie wymagają post-processingu, korekt formatowania ani filtrów weryfikacyjnych – surowe dane wyjściowe mogą być bezpośrednio używane. To znaczący krok w kierunku budowania modeli LLM zdolnych do rozumowania przy skromnych zasobach obliczeniowych i narzędziach open-source.

Badania Sakana AI otwierają nowe perspektywy dla efektywnego i skalowalnego trenowania dużych modeli językowych, minimalizując ich wymagania obliczeniowe i zwiększając ich użyteczność w praktycznych zastosowaniach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *