Nowa strategia Meta i NYU usprawnia dopasowanie LLM dzięki uczeniu pół-online
Wraz z dynamicznym rozwojem dużych modeli językowych (LLM) rośnie zapotrzebowanie na metody, które pozwolą precyzyjnie dopasować ich działanie do oczekiwań użytkowników. Faza wyrównania, często realizowana z użyciem uczenia ze wzmocnieniem (RL), jest kluczowa dla optymalizacji LLM w kontekście instrukcji, wymagań językowych czy precyzyjnych zadań matematycznych.
Wybór optymalnej strategii uczenia ze wzmocnieniem, czy to offline, czy online, stanowił dotychczas wyzwanie. Podejścia offline, bazujące na statycznych zbiorach danych, są efektywne kosztowo, ale brakuje im adaptacyjności. Z kolei metody online, które ciągle aktualizują model w trakcie interakcji, wymagają znacznie więcej zasobów obliczeniowych. Do tego dochodzi złożoność związana z koniecznością zapewnienia wysokiej wydajności zarówno weryfikowalnych zadań (np. matematycznych), jak i tych o charakterze otwartym (nieweryfikowalnych).
Historyczne rozwiązania i ich ograniczenia
Algorytmy takie jak Direct Preference Optimization (DPO) i Group Relative Policy Optimization (GRPO) były szeroko stosowane do dopasowywania modeli. DPO, działając w trybie offline, ceni się za prostotę i efektywność danych, lecz jego adaptacyjność jest ograniczona. GRPO opiera się na algorytmie PPO i umożliwia dostrajanie online poprzez porównywanie grup wyników, aby obliczyć względne korzyści. Chociaż GRPO adaptuje się w czasie rzeczywistym i nadaje się do dynamicznych systemów nagradzania, jego natura on-policy zwiększa obciążenie obliczeniowe i utrudnia eksperymentowanie.
Pół-online: połączenie światów
Badania przeprowadzone przez Meta i NYU rzucają nowe światło na ten problem, wprowadzając metodę treningu pół-online. Polega ona na modulowaniu częstotliwości synchronizacji generowania modelu i komponentów treningowych. Zamiast aktualizować model na każdym kroku treningowym (jak w metodach w pełni online) lub wcale (jak w metodach offline), podejście pół-online znajduje złoty środek, dostosowując tempo synchronizacji. To innowacyjne rozwiązanie ma na celu skrócenie czasu treningu przy jednoczesnym utrzymaniu wysokiej adaptacyjności modelu. Modułowa struktura pozwala również na elastyczne stosowanie DPO lub GRPO wraz z modelami nagród specyficznymi dla zadań.
Metodologia i eksperymenty
W ramach badań dostrajano model Llama-3.1-8B-Instruct z wykorzystaniem dwóch typów zadań: otwartych instrukcji oraz rozwiązywania problemów matematycznych. W przypadku zadań nieweryfikowalnych, zapytania użytkowników pobierano z datasetu WildChat-1M i oceniano za pomocą modelu nagród Athene-RM-8B. Dla zadań weryfikowalnych wykorzystano dataset NuminaMath w połączeniu z pakietem Math-Verify, który sprawdza zgodność generowanych odpowiedzi z oczekiwanymi wynikami.
Eksperymenty przeprowadzono na 32 procesorach graficznych NVIDIA H200 do treningu i 8 procesorach do wnioskowania. Porównywano różne konfiguracje, uwzględniające interwały synchronizacji offline, pół-online i online.
Zauważalna poprawa wydajności
Różnice w wydajności okazały się znaczące. Na zbiorze Math500, offline DPO osiągnęło 53,7% dokładności, podczas gdy pół-online DPO z interwałem synchronizacji s = 100 uzyskało 58,9%. Online DPO i GRPO wykazały podobne wyniki – odpowiednio 58,7% i 58,1%. Podobne tendencje zaobserwowano w benchmarku NuminaMath, gdzie offline DPO osiągnęło 36,4%, a warianty pół-online zwiększyły ten wynik do 39,4% (s = 10).
Zyski wydajności nie ograniczyły się wyłącznie do zadań matematycznych. W przypadku zadań nieweryfikowalnych, ocenianych za pomocą AlpacaEval 2.0 i Arena-Hard, modele trenowane z mieszanych typów nagród konsekwentnie osiągały lepsze wyniki. Połączenie weryfikowalnych i nieweryfikowalnych nagród w jednej konfiguracji treningowej doprowadziło do wyższych średnich wyników, wskazując na efektywną generalizację metody.
Elastyczne i skalowalne podejście
Badanie wyraźnie pokazuje, że dostrajanie dużych modeli językowych nie wymaga sztywnego trzymania się wyłącznie konfiguracji offline lub online. Dzięki wprowadzeniu elastycznego schematu synchronizacji, zespół badawczy z Meta i NYU skutecznie zwiększył efektywność treningu, jednocześnie utrzymując lub poprawiając wydajność modeli. Wyniki wskazują, że staranne zbalansowanie typów nagród i częstotliwości synchronizacji treningu prowadzi do modeli, które dobrze radzą sobie z różnymi typami zadań, nie generując przy tym wysokich kosztów obliczeniowych. Jest to krok naprzód w kierunku bardziej praktycznego i efektywnego rozwoju AI.
