ReasonFlux-PRM zmienia ocenę rozumowania LLM poprzez analizę przebiegu tego procesu
W miarę jak duże modele językowe (LLM) stają się coraz bardziej wyrafinowane, zdolność do rozwiązywania złożonych problemów, takich jak te z dziedziny matematyki czy nauk ścisłych, opiera się na tak zwanym „łańcuchu myślowym” (Chain-of-Thought, CoT). To podejście umożliwia modelom nie tylko podanie ostatecznej odpowiedzi, ale także zaprezentowanie sekwencji pośrednich kroków rozumowania. Taka transparentność pozwala na lepsze zrozumienie procesu myślowego modelu, zwiększa dokładność wnioskowania i ułatwia identyfikację potencjalnych błędów.
Niewystarczalność tradycyjnych modeli nagradzających
Obecnie, większość tzw. modeli nagradzających (PRM – Process Reward Models) ocenia jedynie ostateczne wyniki, co stanowi istotne ograniczenie, szczególnie w kontekście modeli takich jak Deepseek-R1, które generują rozbudowane ścieżki rozumowania. Pomimo że te „pary trajektoria-odpowiedź” są kluczowe dla szkolenia mniejszych modeli, tradycyjne PRM-y nie są przystosowane do oceny całych trajektorii. Prowadzi to do nieefektywnego nadzoru, co w konsekwencji negatywnie wpływa na wydajność modeli szkolonych na tych danych.
Problem pogłębia fakt, że nawet zaawansowane PRM-y, jak Qwen2.5-Math-PRM-72B, wykazują ograniczoną zdolność do rozróżniania między wysokiej a niskiej jakości etapami rozumowania. W przypadku zastosowania do wyników generowanych przez modele takie jak Gemini czy Deepseek-R1, często obserwuje się nakładające się wyniki nagród, co świadczy o słabej dyskryminacji. Ta ograniczona czułość prowadzi do niewłaściwego wyboru danych do dalszego dostrajania, a przeprowadzone eksperymenty niestety potwierdzają, że modele szkolone na danych wybranych przez PRM-y działają gorzej niż te szkolone na zbiorach danych ręcznie przygotowanych przez ludzi.
Przełomowe podejście ReasonFlux-PRM
W odpowiedzi na te wyzwania, badacze z University of Illinois Urbana-Champaign (UIUC), Princeton University, Cornell University i ByteDance Seed opracowali ReasonFlux-PRM. To innowacyjne rozwiązanie jest modelem uwzględniającym trajektorię, co pozwala na ocenę zarówno pośrednich kroków rozumowania, jak i końcowych odpowiedzi. Integracja punktacji na poziomie kroków i na poziomie całej trajektorii umożliwia bardziej niuansowe zrozumienie jakości rozumowania.
ReasonFlux-PRM został wytrenowany na zbiorze danych liczącym 10 000 próbek, starannie dobranych problemów matematycznych i naukowych, zaprojektowanych tak, aby odzwierciedlać rzeczywiste formaty „trajektoria-odpowiedź”. Technicznie rzecz biorąc, model ocenia każdy pośredni krok w trajektorii pod kątem jego wkładu w ostateczną odpowiedź, wykorzystując referencyjną funkcję nagradzającą, która uwzględnia dane wejściowe, poprzednie kroki rozumowania i końcowy wynik. Wyniki te są następnie agregowane w celu uzyskania ogólnej nagrody za całą trajektorię. Elastyczność ReasonFlux-PRM pozwala na jego wykorzystanie do offline’owego filtrowania wysokiej jakości danych treningowych, dostarczania gęstych nagród podczas uczenia wzmocnionego oraz do wyboru najlepszych odpowiedzi w czasie testowania.
Wyniki i perspektywy
W testach porównawczych przeprowadzonych na benchmarkach rozumowania, takich jak AIME, MATH500 i GPQA-Diamond, ReasonFlux-PRM-7B znacząco przewyższył Qwen2.5-Math-PRM-72B oraz dane przygotowane przez ludzi. Model osiągnął imponujący wzrost dokładności o 12,1% w nadzorowanym dostrajaniu, poprawę o 4,5% podczas uczenia wzmocnionego oraz wzrost o 6,3% w czasie skalowania testowego. Co istotne, te znaczące zyski zostały osiągnięte pomimo mniejszego rozmiaru modelu ReasonFlux-PRM.
Na przykład, model Qwen2.5-14B-Instruct, wytrenowany na danych wybranych przez ReasonFlux-PRM, osiągnął poziom wydajności porównywalny lub przewyższający podstawowe linie ludzkich danych. Jest to w jaskrawym kontraście do innych PRM-ów, które prowadziły do spadków wydajności sięgających nawet 26,6% w niektórych benchmarkach.
Badania nad ReasonFlux-PRM adresują fundamentalne luki w szkoleniu i ocenie współczesnych modeli rozumowania. Umożliwiając nadzór zarówno nad ścieżkami myślowymi, jak i nad ostatecznymi odpowiedziami, ReasonFlux-PRM podnosi jakość danych treningowych i wiarygodność odpowiedzi modelu, wyznaczając nowy kierunek dla systematycznej oceny i ulepszania procesów rozumowania w dużych modelach.
