Jak proste sztuczki oszukują modele nagradzające AI i co z tym zrobić
W miarę jak systemy uczenia ze wzmocnieniem z weryfikowalnymi nagrodami (RLVR) zyskują na znaczeniu, pojawia się potrzeba równie precyzyjnych i niezawodnych modeli oceniających. Generatywne modele nagradzające, w których duże modele językowe (LLM) pełnią rolę sędziów, stają się preferowanym wyborem, zwłaszcza w zadaniach wymagających otwartych lub złożonych odpowiedzi. Zamiast sztywnych reguł, LLM porównują proponowane odpowiedzi z wzorcowymi, dostarczając binarne sygnały zwrotne.
Jednak, jak wskazują najnowsze badania, ta pozornie zaawansowana metoda oceny kryje poważną lukę. Mimo że modele te dobrze korelują z ocenami ludzkimi, są zadziwiająco podatne na powierzchowne sygnały, takie jak interpunkcja czy frazy typu „Rozwiążmy to krok po kroku”. Pozornie niewinne elementy mogą generować fałszywie pozytywne sygnały, co podważa wiarygodność całego systemu.
Problem powierzchownych manipulacji
Badacze z Tencent AI Lab, Princeton University i University of Virginia odkryli, że LLM używane jako sędziowie w RLVR mogą być manipulowane poprzez wstawianie trywialnych wskazówek, które naśladują wzorce rozumowania. Okazało się, że nawet bezużyteczne odpowiedzi – takie jak słowo „Rozwiązanie” lub znaki interpunkcyjne – mogą wywołać pozytywne oceny. To zjawisko stwarza poważne ryzyko dla algorytmów takich jak optymalizacja preferencji czy próbkowanie odrzuceń, gdzie kluczowe są dokładne sygnały nagrody. Problem jest systemowy i dotyczy zarówno modeli komercyjnych (np. GPT-4o, Claude-4), jak i otwartych (np. LLaMA3, Qwen2.5).
Badania wykazały, że wszystkie testowane modele wykazywały podwyższone wskaźniki fałszywie pozytywnych ocen, gdy były narażone na „haki klucza głównego” – proste, powierzchowne manipulacje tekstem. Co więcej, zaobserwowano interesującą zależność od rozmiaru modelu: mniejsze modele dosłownie dopasowywały wzorce tokenów, modele średniej wielkości popełniały błędy semantyczne, podczas gdy większe modele nadmiernie uogólniały te fałszywe sygnały.
Master-RM: Odporny model nagradzający
Aby zaradzić tym słabościom, zespół badawczy opracował Master-RM, nowy model nagradzający, wytrenowany z rozszerzonym zestawem danych zawierającym 20 000 odpowiedzi kontradyktoryjnych. Te odpowiedzi, celowo zawierające ogólne frazy wprowadzające rozumowanie i bezsensowne stwierdzenia, zostały oznaczone jako nieprawidłowe. Dzięki dostrojeniu na tym wzbogaconym zbiorze danych, Master-RM znacząco zmniejszył wskaźniki fałszywie pozytywnych wyników w benchmarkach takich jak GSM8K, MATH i NaturalReasoning.
Master-RM konsekwentnie przewyższał zarówno ogólne, jak i specyficzne dla zadań modele nagradzające, osiągając niemal zerowe wskaźniki błędów nawet w warunkach adversarialnych. Kluczowym wnioskiem jest to, że wzbogacanie danych treningowych o mieszankę poprawnych i zmanipulowanych odpowiedzi drastycznie poprawia odporność bez uszczerbku dla dokładności. Model został zweryfikowany na pięciu różnorodnych benchmarkach rozumowania, utrzymując zgodność z „złotymi standardami” takimi jak GPT-4o, jednocześnie wykazując minimalną liczbę fałszywych pozytywów.
Nawet w przypadku oceny z zastosowaniem wariantów adversarialnych w różnych językach i domenach zadań, Master-RM zachował swoją niezawodność, co jest dowodem na jego solidność i skalowalność.
Zidentyfikowanie tej krytycznej słabości w wykorzystywaniu LLM jako sędziów w systemach RLVR jest kluczowe. Proste, powierzchowne wzorce mogą doprowadzić do błędów w funkcji nagrody, kompromitując cały proces uczenia. Master-RM oferuje realną obronę, pokazując, że celowe wzbogacanie danych może wzmocnić modele nagradzające przed manipulacją. Model i jego zestaw danych treningowych są już publicznie dostępne w serwisie Hugging Face, co otwiera drogę do bardziej wiarygodnej oceny opartej na LLM w dziedzinie uczenia ze wzmocnieniem.
