Nvidia ProRLv2: Nowe podejście do uczenia modeli językowych poprzez uczenie ze wzmocnieniem
Nvidia nie przestaje zaskakiwać. Ich najnowsze osiągnięcie, ProRLv2, to nowa odsłona Prolonged Reinforcement Learning, techniki uczenia ze wzmocnieniem (RL), która ma na celu radykalną poprawę zdolności rozumowania dużych modeli językowych (LLM). Zamiast skupiać się wyłącznie na zwiększaniu rozmiaru modeli lub zbiorów danych, Nvidia postanowiła przetestować, jak długotrwałe uczenie ze wzmocnieniem wpływa na inteligencję maszyn.
Kluczowym elementem ProRLv2 jest wydłużenie procesu uczenia RL z 2000 do 3000 kroków. Może się to wydawać niewielką zmianą, ale, jak podkreślają badacze z Nvidii, to właśnie to wydłużenie pozwala modelom na eksplorację nowych przestrzeni rozwiązań, generowanie bardziej kreatywnych odpowiedzi i osiąganie wyższego poziomu rozumowania. Nawet w przypadku stosunkowo niewielkich modeli, takich jak 1.5B-parameter Nemotron-Research-Reasoning-Qwen-1.5B-v2.
Innowacje w ProRLv2
ProRLv2 wprowadza kilka kluczowych innowacji, które mają na celu pokonanie typowych ograniczeń uczenia RL w kontekście LLM:
- REINFORCE++- Baseline: Algorytm RL zaprojektowany do optymalizacji długoterminowej, radzący sobie z niestabilnością, która często występuje w uczeniu LLM.
- Regularyzacja dywergencji KL i reset polityki referencyjnej: Okresowe odświeżanie modelu referencyjnego, co zapewnia stabilny postęp i dalszą eksplorację.
- Decoupled Clipping & Dynamic Sampling (DAPO): Metoda promująca odkrywanie różnorodnych rozwiązań poprzez wzmacnianie mało prawdopodobnych tokenów i skupianie się na przykładach o średnim poziomie trudności.
- Scheduled Length Penalty: Cykliczne stosowanie kary za długość, co pomaga utrzymać różnorodność i zapobiega zapadaniu się entropii w trakcie wydłużonego treningu.
Jak ProRLv2 rozwija rozumowanie LLM?
Model Nemotron-Research-Reasoning-Qwen-1.5B-v2, trenowany przez 3000 kroków RL z wykorzystaniem ProRLv2, ustanawia nowy standard dla otwartych modeli 1.5B w zadaniach wymagających rozumowania. Obejmuje to matematykę, kodowanie, naukę i łamigłówki logiczne. Najważniesze jest to, że model ten:
- Osiąga lepsze wyniki niż poprzednie wersje i konkurencyjne modele, takie jak DeepSeek-R1-1.5B.
- Wraz z wydłużeniem treningu, model stale się poprawia, szczególnie w zadaniach, w których bazowe modele radzą sobie słabo.
- Wykazuje zdolność do generalizacji wiedzy i adaptacji do nowych zadań, których nie widział podczas treningu.
Testy wykazały średni wzrost dokładności pass@1 o 14.7% w matematyce, 13.9% w kodowaniu, 54.8% w łamigłówkach logicznych, 25.1% w rozumowaniu STEM i 18.1% w zadaniach związanych z wykonywaniem instrukcji. Co istotne, te ulepszenia są jeszcze bardziej widoczne w trudniejszych i wcześniej niewidzianych benchmarkach.
Dlaczego to jest ważne?
ProRLv2 udowadnia, że kontynuacja uczenia RL, z odpowiednią eksploracją i regularyzacją, znacząco rozszerza możliwości uczenia się i generalizacji LLM. Unika wczesnej stabilizacji i przetrenowania. Długotrwałe uczenie RL pozwala mniejszym modelom konkurować z znacznie większymi w zadaniach wymagających rozumowania. Pokazuje to, że skalowanie RL jest równie ważne jak rozmiar modelu lub zbioru danych.
Najnowszy model jest dostępny do testowania na Hugging Face. Nvidia udostępniła również kod, który umożliwia szybkie przetestowanie modelu:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")
Podsumowanie
ProRLv2 redefiniuje granice rozumowania w modelach językowych, pokazując, że prawa skalowania RL są równie ważne jak wielkość modelu czy dane. Dzięki zaawansowanej regularyzacji i inteligentnym harmonogramom treningowym, technologia ta umożliwia głębokie, kreatywne i uogólnione rozumowanie, nawet w kompaktowych architekturach. Przyszłość leży w tym, jak daleko możemy przesunąć granice uczenia RL, a nie tylko w tym, jak duże możemy budować modele.
