Crome: Google DeepMind przedstawia metodę na uniknięcie 'hakowania nagród’ w modelach językowych
Modele nagród stanowią kluczowy element w procesie dostrajania dużych modeli językowych do preferencji człowieka. To one pozwalają na ocenę jakości generowanych odpowiedzi i kierują procesem uczenia. Niestety, ich fundamentalny problem, określany mianem „hakowania nagród” (reward hacking), sprawia, że modele te często skupiają się na powierzchownych atrybutach, takich jak długość odpowiedzi czy formatowanie, zamiast na rzeczywistych wskaźnikach jakości, jak faktyczność czy trafność. Problem ten wynika z niedoskonałości standardowych metod treningowych, które nie potrafią odróżnić przypadkowych korelacji od prawdziwych przyczyn jakości odpowiedzi, prowadząc do tworzenia niestabilnych modeli nagród, które nie są zgodne z zamierzonymi celami.
Obecne podejścia próbowały zaradzić temu problemowi poprzez modyfikacje architektury, korekty na poziomie polityki lub metody oparte na danych, takie jak zastosowanie systemów ensemble lub kontroli spójności. Pojawiły się również techniki inspirowane przyczynowością, jednak ich zakres jest ograniczony. Skupiają się one na z góry określonych fałszywych czynnikach, ignorując te nieznane i niewykryte. Metody bazujące na augmentacji danych pozostają zbyt ogólne, a te skoncentrowane na ocenie nie wyposażają modeli nagród w mechanizmy odporne na zróżnicowane, zwodnicze wariacje.
W odpowiedzi na te wyzwania, badacze z Google DeepMind, McGill University i MILA – Quebec AI Institute – opracowali Crome (Causally Robust Reward Modeling). Jest to framework bazujący na explicite przyczynowym modelu generowania odpowiedzi. Crome ma za zadanie nauczyć modele nagród rozróżniać prawdziwe czynniki jakościowe od powierzchownych sygnałów. Osiąga to poprzez wzbogacenie zbiorów danych preferencji o ukierunkowane, generowane przez LLM przykłady kontrfaktyczne.
Kluczem do działania Crome są dwa typy syntetycznych par treningowych: „Causal Augmentations” (Augmentacje Przyczynowe) oraz „Neutral Augmentations” (Augmentacje Neutralne). Augmentacje Przyczynowe wprowadzają zmiany wzdłuż specyficznych atrybutów przyczynowych, takich jak faktyczność, aby wymusić wrażliwość na prawdziwe zmiany jakości. Z kolei Augmentacje Neutralne wymuszają niezmienność względem atrybutów fałszywych, np. stylu, poprzez etykiety wskazujące na brak różnicy. Proces ten znacząco zwiększa odporność modeli, co przekłada się na wzrost dokładności RewardBench nawet o 4,5%, poprawiając bezpieczeństwo i zdolności rozumowania modeli.
Od strony technicznej, Crome działa w dwóch głównych fazach: generowaniu danych kontrfaktycznych uwzględniających atrybuty, opartych na modelu przyczynowym, oraz trenowaniu modelu nagród ze specjalistyczną funkcją strat na połączonych danych. Badacze przedstawili również teoretyczną analizę, która pokazuje, jak augmentacja przyczynowa izoluje prawdziwe sterowniki nagród od nieistotnych korelacji w idealizowanym modelu. Crome wykorzystuje zbiór danych UltraFeedback, z przykładami kontrfaktycznymi generowanymi przez Gemini 2.0 Flash, a wydajność ocenia się na platformach RewardBench i reWordBench. Eksperymenty obejmują różne bazowe modele LLM, takie jak Gemma-2-9B-IT, Qwen2.5-7B i Gemma-2-2B, zarówno dla modeli nagród Pairwise Preference, jak i Bradley-Terry, z dalszym wpływem na dopasowanie poprzez selekcję Best-of-N w wielu zadaniach.
Wyniki Crome są obiecujące. Na platformie RewardBench, Crome osiągnął znaczące poprawy w dokładności rankingu w porównaniu do istniejących rozwiązań, zwłaszcza w kategoriach bezpieczeństwa (wzrost do 13,18%) i rozumowania (wzrost do 7,19%). Na reWordBench, Crome wykazał łączny wzrost dokładności do 9,1% z modelem Gemma-2-9B-IT w ustawieniach PairPM oraz przewyższył konkurencję w 21 z 23 transformacji. Co ważne, spadek dokładności rankingu z RewardBench do reWordBench był znacznie mniejszy dla Crome (19,78%) niż dla konkurencyjnych rozwiązań (21,54%). Dodatkowo, Crome znacząco poprawił bezpieczeństwo na WildGuardTest, osiągając niższe wskaźniki sukcesu ataków na szkodliwe zapytania, jednocześnie utrzymując podobne współczynniki odmowy na zapytania nieszkodliwe.
Wprowadzenie Crome przez badaczy stanowi znaczący krok naprzód w rozwiązywaniu problemu hakowania nagród podczas trenowania modeli językowych. Poprzez zastosowanie dwóch ukierunkowanych strategii augmentacji danych syntetycznych – Augmentacji Przyczynowych i Augmentacji Neutralnych – Crome przewyższa silne rozwiązania bazowe na wielu modelach i technikach modelowania nagród na RewardBench, wykazując jednocześnie wyższą odporność na fałszywe korelacje na reWordBench. Ta metoda treningu, skoncentrowana na kuracji danych, otwiera nowe kierunki badań w generowaniu danych syntetycznych dla trenowania modeli bazowych, gdzie weryfikacja atrybutów przyczynowych może okazać się niezwykle korzystna dla przyszłych projektów w zakresie solidnego zestrojenia modeli językowych.
