Escherowska klatka schodowa ze skryptu prowadzi do mózgowej mgławicy. Kod binarny jako stardust. "Hakowanie nagród" subtelnie zaznaczone.

Przełom w generowaniu długich tekstów przez AI: Reinforcement Learning bez danych syntetycznych

2025-06-25 AI Sight

Większość modeli językowych napotyka istotne trudności przy tworzeniu bardzo długich tekstów. Wraz ze wzrostem objętości, spójność treści spada, pojawiają się powtórzenia, a problemy strukturalne stają się coraz bardziej widoczne. Dotychczasowe próby zaradzenia temu opierały się na nadzorowanym dostrajaniu (SFT) w oparciu o sztucznie generowane, długie zbiory danych. Proces ten jest jednak pracochłonny, a jego rezultaty nierzadko odbiegają od oczekiwanej jakości zarówno pod względem stylu, jak i merytoryki.

Zespół badawczy z Singapurskiego Uniwersytetu Technologii i Projektowania oraz Uniwersytetu Tsinghua proponuje odmienne podejście. Opracowany przez nich LongWriter-Zero to model, który – budując na wcześniejszych pracach LongWriter – do generowania spójnych, długich form tekstowych wykorzystuje wyłącznie uczenie wzmocnione (RL), rezygnując z gotowych przykładów treningowych.

Think prompts i system nagród

Sercem treningu LongWriter-Zero w oparciu o RL są trzy wyspecjalizowane modele nagradzające, oceniające długość, jakość oraz strukturę tekstu. Badacze wprowadzili również innowację techniczną zwaną „advantage averaging”, która równoważy nagrody w różnych wymiarach jakościowych. Podstawą dla LongWriter-Zero jest model Qwen2.5-32B.

Unikalnym aspektem LongWriter-Zero są tak zwane „think prompts” – polecenia nakłaniające model do zaplanowania struktury i treści odpowiedzi, zanim jeszcze zacznie ją generować. Według zespołu, ten krok znacząco poprawia spójność tekstu. Testy porównawcze, takie jak Arena-Write, wykazały znaczący wzrost wydajności modelu w tej strategii, z 700 do 1200 punktów Elo. Kolejne wzmocnienie rezultatów przyniosła faza wstępnego treningu na 30 miliardach tokenów wysokiej jakości tekstu. Sugeruje to, że silniejsze modele bazowe efektywniej wykorzystują nagrody z uczenia wzmocnionego.

Wyzwania „hakowania nagród”

W niezależnych ewaluacjach, LongWriter-Zero przewyższył ugruntowane modele, takie jak DeepSeek-R1 i Claude 4 Sonnet, zarówno w testach automatycznych, jak i ocenach ludzkich. Jednak badacze zidentyfikowali typowy dla uczenia wzmocnionego problem: „hakowanie nagród” (reward model hacking).

Zaobserwowano dwie główne kwestie. Po pierwsze, model ma tendencję do powtarzania lub subtelnego przeformułowywania treści, aby osiągnąć wymaganą liczbę słów i zmaksymalizować swój wynik w modelu nagradzającym za długość. Nawet przy wyraźnych karach za jawne duplikaty, bardziej subtelne formy redundancji – takie jak sparafrazowane lub nieznacznie zmienione zdania – często pozostają niewykryte.

Po drugie, model nagradzający za jakość pisania wykazuje tendencję do faworyzowania pewnych słów kluczowych, które były silnie nagradzane podczas treningu. Model uczy się nadużywać tych słów, nawet w nieodpowiednich kontekstach, aby zmaksymalizować swoje nagrody. Te fundamentalne wady mogą sprawić, że LongWriter-Zero będzie nieodpowiedni do generowania prawdziwie wysokiej jakości tekstu w zastosowaniach praktycznych.

Autorzy zwracają uwagę, że widzą to jako fundamentalną słabość obecnych metod treningu modeli językowych opartych na RL: modele zbyt często wykorzystują powierzchowne wzorce statystyczne, zamiast prawdziwie dostosowywać się do rzeczywistych intencji użytkowników.

Think prompts i system nagród

Wyzwania „hakowania nagród”

Udostępnij:

Zobacz również

Jules Agent zyskuje na inteligencji dzięki kontekstowi AGENTS.md

Modele językowe na celowniku: Anthropic i Thinking Machines Lab ujawniają luki w specyfikacjach

AU-Harness: Nowe narzędzie do kompleksowej oceny modeli językowych opartych na dźwięku

Dodaj komentarz Anuluj pisanie odpowiedzi