Świecąca sieć neuronowa w iryzujących chmurach, symbolizująca rozumowanie i uczenie ze wzmocnieniem w AI.

Nvidia ProRLv2: Nowe podejście do uczenia modeli językowych poprzez uczenie ze wzmocnieniem

2025-08-18 AI Sight

Nvidia nie przestaje zaskakiwać. Ich najnowsze osiągnięcie, ProRLv2, to nowa odsłona Prolonged Reinforcement Learning, techniki uczenia ze wzmocnieniem (RL), która ma na celu radykalną poprawę zdolności rozumowania dużych modeli językowych (LLM). Zamiast skupiać się wyłącznie na zwiększaniu rozmiaru modeli lub zbiorów danych, Nvidia postanowiła przetestować, jak długotrwałe uczenie ze wzmocnieniem wpływa na inteligencję maszyn.

Kluczowym elementem ProRLv2 jest wydłużenie procesu uczenia RL z 2000 do 3000 kroków. Może się to wydawać niewielką zmianą, ale, jak podkreślają badacze z Nvidii, to właśnie to wydłużenie pozwala modelom na eksplorację nowych przestrzeni rozwiązań, generowanie bardziej kreatywnych odpowiedzi i osiąganie wyższego poziomu rozumowania. Nawet w przypadku stosunkowo niewielkich modeli, takich jak 1.5B-parameter Nemotron-Research-Reasoning-Qwen-1.5B-v2.

Innowacje w ProRLv2

ProRLv2 wprowadza kilka kluczowych innowacji, które mają na celu pokonanie typowych ograniczeń uczenia RL w kontekście LLM:

REINFORCE++- Baseline: Algorytm RL zaprojektowany do optymalizacji długoterminowej, radzący sobie z niestabilnością, która często występuje w uczeniu LLM.
Regularyzacja dywergencji KL i reset polityki referencyjnej: Okresowe odświeżanie modelu referencyjnego, co zapewnia stabilny postęp i dalszą eksplorację.
Decoupled Clipping & Dynamic Sampling (DAPO): Metoda promująca odkrywanie różnorodnych rozwiązań poprzez wzmacnianie mało prawdopodobnych tokenów i skupianie się na przykładach o średnim poziomie trudności.
Scheduled Length Penalty: Cykliczne stosowanie kary za długość, co pomaga utrzymać różnorodność i zapobiega zapadaniu się entropii w trakcie wydłużonego treningu.

Jak ProRLv2 rozwija rozumowanie LLM?

Model Nemotron-Research-Reasoning-Qwen-1.5B-v2, trenowany przez 3000 kroków RL z wykorzystaniem ProRLv2, ustanawia nowy standard dla otwartych modeli 1.5B w zadaniach wymagających rozumowania. Obejmuje to matematykę, kodowanie, naukę i łamigłówki logiczne. Najważniesze jest to, że model ten:

Osiąga lepsze wyniki niż poprzednie wersje i konkurencyjne modele, takie jak DeepSeek-R1-1.5B.
Wraz z wydłużeniem treningu, model stale się poprawia, szczególnie w zadaniach, w których bazowe modele radzą sobie słabo.
Wykazuje zdolność do generalizacji wiedzy i adaptacji do nowych zadań, których nie widział podczas treningu.

Testy wykazały średni wzrost dokładności pass@1 o 14.7% w matematyce, 13.9% w kodowaniu, 54.8% w łamigłówkach logicznych, 25.1% w rozumowaniu STEM i 18.1% w zadaniach związanych z wykonywaniem instrukcji. Co istotne, te ulepszenia są jeszcze bardziej widoczne w trudniejszych i wcześniej niewidzianych benchmarkach.

Dlaczego to jest ważne?

ProRLv2 udowadnia, że kontynuacja uczenia RL, z odpowiednią eksploracją i regularyzacją, znacząco rozszerza możliwości uczenia się i generalizacji LLM. Unika wczesnej stabilizacji i przetrenowania. Długotrwałe uczenie RL pozwala mniejszym modelom konkurować z znacznie większymi w zadaniach wymagających rozumowania. Pokazuje to, że skalowanie RL jest równie ważne jak rozmiar modelu lub zbioru danych.

Najnowszy model jest dostępny do testowania na Hugging Face. Nvidia udostępniła również kod, który umożliwia szybkie przetestowanie modelu:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")

Podsumowanie

ProRLv2 redefiniuje granice rozumowania w modelach językowych, pokazując, że prawa skalowania RL są równie ważne jak wielkość modelu czy dane. Dzięki zaawansowanej regularyzacji i inteligentnym harmonogramom treningowym, technologia ta umożliwia głębokie, kreatywne i uogólnione rozumowanie, nawet w kompaktowych architekturach. Przyszłość leży w tym, jak daleko możemy przesunąć granice uczenia RL, a nie tylko w tym, jak duże możemy budować modele.

Innowacje w ProRLv2

Jak ProRLv2 rozwija rozumowanie LLM?

Dlaczego to jest ważne?

Podsumowanie

Udostępnij:

Zobacz również

Bezpieczne AI: Klucz do zaufania i rozwoju według Anthropic

Apple buduje własny silnik odpowiedzi AI, rzucając wyzwanie wyszukiwarkom

Salesforce Agentforce 3: Nowe standardy monitoringu i interoperacyjności agentów AI

Dodaj komentarz Anuluj pisanie odpowiedzi