LLM

Przełom w ocenie rozumowania modeli językowych: ReasonFlux-PRM rewolucjonizuje ewaluację ścieżek myślowych

Wraz z rosnącą złożonością zadań, jakie powierza się dużym modelom językowym (LLM), takich jak zaawansowane problemy matematyczne czy naukowe, kluczowe staje się nie tylko uzyskanie poprawnej odpowiedzi końcowej, ale również zrozumienie, w jaki sposób model do niej doszedł. Współczesne LLM-y coraz częściej wykorzystują strategie „łańcucha myśli” (Chain-of-Thought, CoT), polegające na generowaniu sekwencji pośrednich kroków rozumowania. Taka metoda zwiększa dokładność i umożliwia lepsze śledzenie błędów, jednak stawia nowe wyzwania w zakresie ewaluacji.

Obecnie dominujące modele nagradzające (Process Reward Models, PRM) skupiają się przede wszystkim na ocenie finalnej odpowiedzi, ignorując trajektorię rozumowania. To znaczące ograniczenie, zwłaszcza w obliczu rozwoju modeli zdolnych do generowania rozbudowanych ścieżek dedukcyjnych, jak Deepseek-R1. Problem polega na tym, że istniejące PRM-y nie są przystosowane do efektywnej oceny tych złożonych trajektorii. Prowadzi to do nieprecyzyjnej superwizji, co w konsekwencji może negatywnie wpływać na wydajność mniejszych modeli trenowanych na danych zawierających takie ścieżki rozumowania.

Wyzwania w ocenie niespójnych łańcuchów rozumowania

Tradycyjne PRM-y są zoptymalizowane do pracy ze zorganizowanymi i czystymi danymi wyjściowymi, nie zaś z długimi, często nieuporządkowanymi łańcuchami rozumowania generowanymi przez zaawansowane LLM-y. Nawet zaawansowane rozwiązania, takie jak Qwen2.5-Math-PRM-72B, wykazują ograniczoną zdolność do rozróżniania między wysokiej a niskiej jakości rozumowaniem pośrednim. W praktyce, przy ocenie trajektorii z Gemini czy Deepseek-R1, modele te często przypisują zbliżone wyniki nagród, co świadczy o słabej dyskryminacji. Ta ograniczona czułość przekłada się na nieefektywny dobór danych do dalszego dostrajania, a przeprowadzone eksperymenty potwierdzają, że modele trenowane na danych wybranych przez takie PRM-y radzą sobie gorzej niż te szkolone na zbiorach danych kuratorowanych przez ludzi.

ReasonFlux-PRM: Nowe podejście do superwizji trajektorii

Odpowiedzią na te wyzwania jest ReasonFlux-PRM, model opracowany przez badaczy z University of Illinois Urbana-Champaign (UIUC), Princeton University, Cornell University oraz ByteDance Seed. ReasonFlux-PRM to model świadomy trajektorii, który dokonuje ewaluacji zarówno pośrednich kroków rozumowania, jak i końcowych odpowiedzi. Integruje on punktację na poziomie poszczególnych kroków oraz na poziomie całej trajektorii, co pozwala na bardziej subtelne zrozumienie jakości rozumowania. Model został wytrenowany na zbiorze 10 000 próbek specjalnie przygotowanych problemów matematycznych i naukowych, które odzwierciedlają rzeczywiste formaty trajektoria-odpowiedź.

Technicznie, ReasonFlux-PRM punktuje każdy pośredni krok w trajektorii pod kątem jego wkładu w finalną odpowiedź. Wykorzystuje funkcję nagrody referencyjnej, która bierze pod uwagę zapytanie, poprzednie kroki rozumowania oraz wynik końcowy, aby przypisać wyniki na poziomie kroku. Te następnie są agregowane w celu uzyskania łącznej nagrody za całą trajektorię. Model ReasonFlux-PRM znajduje zastosowanie w filtrowaniu wysokiej jakości danych treningowych, dostarczaniu gęstych nagród podczas uczenia wzmocnionego oraz w selekcji odpowiedzi „Best-of-N” przed czasem testowania, co poprawia jakość wnioskowania. Te możliwości czynią ReasonFlux-PRM znacznie bardziej elastycznym i kompleksowym w porównaniu do wcześniejszych PRM-ów.

Wyniki empiryczne i przyszłość

W testach na benchmarkach rozumowania, takich jak AIME, MATH500 i GPQA-Diamond, ReasonFlux-PRM-7B znacząco przewyższył Qwen2.5-Math-PRM-72B oraz dane kuratorowane przez ludzi. Osiągnął poprawę dokładności o 12,1% w nadzorowanym dostrajaniu, 4,5% w uczeniu wzmocnionym i 6,3% w skalowaniu w czasie testowym. Te znaczące zyski są szczególnie imponujące, biorąc pod uwagę mniejszy rozmiar modelu ReasonFlux-PRM. Dane wykazały, że model Qwen2.5-14B-Instruct, trenowany na danych wybranych przez ReasonFlux-PRM, osiągnął wyniki zbliżone do lub przewyższające ludzkie standardy, podczas gdy inne PRM-y skutkowały spadkami wydajności nawet o 26,6% w niektórych przypadkach.

Badania nad ReasonFlux-PRM adresują kluczowe luki w ocenie i treningu nowoczesnych modeli bazujących na rozumowaniu. Umożliwienie superwizji zarówno nad ścieżkami myślowymi, jak i końcowymi odpowiedziami, poprawia jakość danych treningowych i wiarygodność odpowiedzi modelu. Oznacza to nowy kierunek w systematycznej ewaluacji i optymalizacji procesów rozumowania w dużych modelach językowych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *