LLMR & D

RLP: NVIDIA wprowadza wzmacnianie jako cel pretreningu, by wykształcić „myślenie” modeli

Nowa propozycja: nagradzać myślenie przed przewidywaniem

NVIDIA zaproponowała Reinforcement Learning Pretraining (RLP) — podejście, które traktuje krótki chain‑of‑thought (CoT) jako akcję próbkowaną przed klasycznym przewidywaniem następnego tokenu i nagradza ją proporcjonalnie do informacji, jaką wnosi dla tego przewidywania. W praktyce oznacza to, że model uczy się „myśleć” w czasie pretreningu, a nie dopiero podczas późniejszych procedur dostrajania z nagrodami.

Na czym polega mechanizm

RLP używa jednej sieci o współdzielonych parametrach do dwóch zadań: 1) wygenerowania polityki myślenia π_θ(c_t | x<t) — czyli próbki CoT, i 2) oceny prawdopodobieństwa następnego tokenu p_θ(x_t | x<t, c_t). Jako kontrfaktyczny „no‑think” baseline służy wolno aktualizowany nauczyciel EMA p_ϕ(x_t | x<t). Nagrodę dla każdego tokenu definiuje się jako log‑iloraz: log p_θ(x_t | x<t, c_t) − log p_ϕ(x_t | x<t).

Kluczowe elementy treningu to: aktualizacja wyłącznie tokenów należących do wygenerowanych myśli (thought tokens) przy użyciu obciętego surrogate loss z ważonymi współczynnikami istotności oraz grupowymi względnymi przewagami — wielokrotne próbkowania myśli dla jednego kontekstu zmniejszają wariancję estymacji. Teoretyczne uzasadnienie łączy oczekiwaną nagrodę z redukcją entropii krzyżowej przez marginalizację po myślach, co czyni cel treningowy mierzalnym i sensownym statystycznie.

Dlaczego to technicznie istotne

W odróżnieniu od wcześniejszych pomysłów na „reinforcement pretraining”, które opierały się na rzadkich, binarnych sygnałach poprawności albo na filtrowaniu danych, RLP dostarcza gęsty, wolny od zewnętrznych weryfikatorów sygnał przypisany do konkretnej pozycji tokenu. Taka konstrukcja pozwala stosować nagrodę na zwykłych korpusach tekstowych (np. web crawl, podręczniki, artykuły akademickie) i aktualizować model przy większości tokenów, bez konieczności ręcznego przygotowania kluczy odpowiedzi czy osobnych etykiet.

Wyniki — co pokazały eksperymenty

Badania obejmowały kilka konfiguracji. Dla Qwen3‑1.7B‑Base pretrening z RLP poprawił średnią w zadaniach matematycznych i naukowych o około 19% względem modelu bazowego i o 17% względem ciągłego pretreningu dopasowanego pod kątem obliczeń (CPT). Po identycznym etapie post‑treningowym (SFT + RLVR) przewaga RLP utrzymała się na poziomie około 7–8% względnie, ze szczególnie dużymi zyskami na benchmarkach silnie opartych na rozumowaniu (AIME25, MMLU‑Pro).

W przypadku Nemotron‑Nano‑12B v2 zastosowanie RLP na hybrydowym checkpointcie (Mamba‑Transformer) podniosło średnią ogólną z 42.81% do 61.32% — wzrost rzędu 18,5 punktu procentowego (około 35–43% wzgl.), z absolutnym skokiem +23 punktów w zadaniach prostego rozumowania naukowego. Co istotne, eksperyment RLP używał około 200 miliardów tokenów mniej (19.8T vs 20T NTP), a samo RLP było stosowane przez 250M tokenów, co sugeruje lepszą efektywność danych.

Porównanie z RPT (inny wariant pretreningu z sygnałem wzmocnienia) wskazuje, że RLP przeważa tam, gdzie liczy się ciągły, pozycyjny sygnał informacji — RPT działa na rzadkich, binarnych ocenach i dodatkowo filtruje tokeny entropią, co najwyraźniej ogranicza jego skuteczność na zadaniach matematyczno‑naukowych.

Praktyczne implikacje i skalowalność

RLP jest zaprojektowane jako metoda kompatybilna z istniejącymi pipeline’ami: można ją stosować równolegle lub poprzedzająco względem standardowych procedur wyrównywania (SFT, RLVR). Ponieważ nagroda opiera się na wewnętrznym dowodzie log‑evidence, metoda jest domenowo‑agnostyczna i nie wymaga wąsko ukierunkowanych, kruchych korpusów zewnętrznych weryfikatorów. W testach, nawet przy wyrównanym budżecie obliczeniowym (wliczając wariant CPT z 35× większą liczbą tokenów, by dorównać FLOPs), RLP utrzymywał przewagę, co sugeruje, że korzyści wynikają z formy celu treningowego, nie tylko z większego budżetu.

Na co zwrócić uwagę — ograniczenia i ryzyka

RLP ma kilka otwartych kwestii wymagających dalszej weryfikacji. Po pierwsze, nagroda oparta na zwiększeniu prawdopodobieństwa może premiować myśli, które zwiększają spójność statystyczną przewidywań, ale niekoniecznie ich trafność faktograficzną — istnieje ryzyko, że model nauczy się „przewodnich” rozumowań prowadzących do pewnych odpowiedzi bez lepszej zgodności z rzeczywistością. Po drugie, wielokrotne próbkowanie myśli i bardzo długie myśli (w eksperymentach około 2048 tokenów, z ~16 rollouts) podnosi koszty obliczeniowe i złożoność implementacji, co może ograniczyć przyjęcie techniki poza laboratoriami z dużym budżetem.

Trzeci problem to ocena poza benchmarkami STEM: potrzeba szerokich, niezależnych replikacji w zadaniach językowych, dialogowych, multimodalnych i w innych językach. Wreszcie, choć tokenowy KL anchoring nie dawał korzyści w opisanych eksperymentach, inne regularizacje lub modyfikacje policy gradient mogą okazać się konieczne w innych konfiguracjach architektonicznych.

Wnioski

RLP proponuje konsekwentne przesunięcie doświadczeń z reinforcement learning do fazy pretreningu, nagradzając krótkie łańcuchy myślowe za realny wkład informacyjny w przewidywanie tokenów. Eksperymenty z Qwen3 i Nemotron‑Nano wskazują na znaczące, trwałe korzyści w zadaniach rozumowania oraz lepszą efektywność danych. Metoda jest praktyczna dla dużych korpusów, bo nie wymaga zewnętrznych weryfikatorów ani przygotowanych kluczy odpowiedzi.

Jednak warto podchodzić do wyników z ostrożnością: konieczne są dalsze testy w różnych domenach, analiza wpływu na wiarygodność odpowiedzi i ocena kosztów implementacyjnych. RLP to obiecujący kierunek — nie panaceum — który zmienia dyskusję o tym, jak i kiedy uczyć modele „myśleć”.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *