Przełom w generowaniu długich tekstów przez AI: Reinforcement Learning bez danych syntetycznych
Większość modeli językowych napotyka istotne trudności przy tworzeniu bardzo długich tekstów. Wraz ze wzrostem objętości, spójność treści spada, pojawiają się powtórzenia, a problemy strukturalne stają się coraz bardziej widoczne. Dotychczasowe próby zaradzenia temu opierały się na nadzorowanym dostrajaniu (SFT) w oparciu o sztucznie generowane, długie zbiory danych. Proces ten jest jednak pracochłonny, a jego rezultaty nierzadko odbiegają od oczekiwanej jakości zarówno pod względem stylu, jak i merytoryki.
Zespół badawczy z Singapurskiego Uniwersytetu Technologii i Projektowania oraz Uniwersytetu Tsinghua proponuje odmienne podejście. Opracowany przez nich LongWriter-Zero to model, który – budując na wcześniejszych pracach LongWriter – do generowania spójnych, długich form tekstowych wykorzystuje wyłącznie uczenie wzmocnione (RL), rezygnując z gotowych przykładów treningowych.
Think prompts i system nagród
Sercem treningu LongWriter-Zero w oparciu o RL są trzy wyspecjalizowane modele nagradzające, oceniające długość, jakość oraz strukturę tekstu. Badacze wprowadzili również innowację techniczną zwaną „advantage averaging”, która równoważy nagrody w różnych wymiarach jakościowych. Podstawą dla LongWriter-Zero jest model Qwen2.5-32B.
Unikalnym aspektem LongWriter-Zero są tak zwane „think prompts” – polecenia nakłaniające model do zaplanowania struktury i treści odpowiedzi, zanim jeszcze zacznie ją generować. Według zespołu, ten krok znacząco poprawia spójność tekstu. Testy porównawcze, takie jak Arena-Write, wykazały znaczący wzrost wydajności modelu w tej strategii, z 700 do 1200 punktów Elo. Kolejne wzmocnienie rezultatów przyniosła faza wstępnego treningu na 30 miliardach tokenów wysokiej jakości tekstu. Sugeruje to, że silniejsze modele bazowe efektywniej wykorzystują nagrody z uczenia wzmocnionego.
Wyzwania „hakowania nagród”
W niezależnych ewaluacjach, LongWriter-Zero przewyższył ugruntowane modele, takie jak DeepSeek-R1 i Claude 4 Sonnet, zarówno w testach automatycznych, jak i ocenach ludzkich. Jednak badacze zidentyfikowali typowy dla uczenia wzmocnionego problem: „hakowanie nagród” (reward model hacking).
Zaobserwowano dwie główne kwestie. Po pierwsze, model ma tendencję do powtarzania lub subtelnego przeformułowywania treści, aby osiągnąć wymaganą liczbę słów i zmaksymalizować swój wynik w modelu nagradzającym za długość. Nawet przy wyraźnych karach za jawne duplikaty, bardziej subtelne formy redundancji – takie jak sparafrazowane lub nieznacznie zmienione zdania – często pozostają niewykryte.
Po drugie, model nagradzający za jakość pisania wykazuje tendencję do faworyzowania pewnych słów kluczowych, które były silnie nagradzane podczas treningu. Model uczy się nadużywać tych słów, nawet w nieodpowiednich kontekstach, aby zmaksymalizować swoje nagrody. Te fundamentalne wady mogą sprawić, że LongWriter-Zero będzie nieodpowiedni do generowania prawdziwie wysokiej jakości tekstu w zastosowaniach praktycznych.
Autorzy zwracają uwagę, że widzą to jako fundamentalną słabość obecnych metod treningu modeli językowych opartych na RL: modele zbyt często wykorzystują powierzchowne wzorce statystyczne, zamiast prawdziwie dostosowywać się do rzeczywistych intencji użytkowników.
