Przełom w rozumowaniu modeli językowych: GURU poszerza horyzonty uczenia się przez wzmacnianie
Uczenie się przez wzmacnianie (RL) odgrywa coraz większą rolę w kształtowaniu zdolności rozumowania dużych modeli językowych (LLM). Chociaż systemy takie jak OpenAI-O3 czy DeepSeek-R1 wykazały potencjał RL, większość badań w tej dziedzinie koncentrowała się dotychczas na wyizolowanych obszarach, głównie na matematyce i generowaniu kodu. To wąskie spektrum zastosowań stwarzało liczne wyzwania: niepewność co do możliwości generalizacji metody poza te domeny oraz ograniczenie wszechstronności rozwijanych modeli. Rozszerzenie RL na bardziej otwarte zadania rozumowania było utrudnione przez brak wiarygodnych sygnałów nagród i odpowiednio opracowanych zbiorów danych, które w przypadku matematyki czy programowania są łatwiejsze do zdefiniowania.
Wąskie gardło generalizacji i nowe perspektywy
Sukcesy w zastosowaniu RL do ulepszania umiejętności rozumowania LLM-ów, szczególnie w kontekście modeli takich jak GPT-3 czy DeepSeek-R1, sprowokowały liczne inicjatywy w środowisku open-source. Niemal wszystkie skupiły się jednak na wspomnianych domenach matematycznych i programistycznych. Choć modele te osiągają imponujące wyniki w swoich niszach, ich zdolności rozumowania rzadko przenoszą się na szersze zadania. W środowisku badawczym narastała również dyskusja, czy RL faktycznie uczy nowych umiejętności, czy jedynie wzmacnia zdolność modelu do wykorzystania istniejących wzorców rozumowania. Nowsze prace sugerują jednak, że intensywne i zróżnicowane treningi z wykorzystaniem RL mogą faktycznie odblokować zupełnie nowe strategie rozumowania.
GURU: Nowy standard wielodomenowego uczenia przez wzmacnianie
Kierując się potrzebą przezwyciężenia tych ograniczeń, zespół badaczy z UC San Diego, MBZUAI, Carnegie Mellon i Purdue University przedstawił GURU – pionierski zbiór danych dla RL, składający się z 92 000 przykładów, obejmujących sześć różnorodnych domen rozumowania: matematykę, kodowanie, nauki ścisłe, logikę, symulacje i dane tabelaryczne. Każda z domen została starannie skonstruowana, z uwzględnieniem precyzyjnie dostrojonych funkcji nagrody i rygorystycznego filtrowania danych. Trening modeli na zbiorze GURU ujawnił, że efektywność RL jest silnie związana ze znajomością domeny: w domenach, które były już silnie reprezentowane w danych przedtreningowych (takich jak matematyka czy kodowanie), widoczne były korzyści z uczenia między domenami. Natomiast w przypadku domen mniej znanych, znacząca poprawa nastąpiła dopiero po treningu w ramach konkretnej dziedziny.
Modele opracowane na bazie GURU, GURU-7B i GURU-32B, przewyższają dotychczasowe otwarte modele o nawet 7,9% w 17 różnych zadaniach. Te wyniki podkreślają zarówno specyfikę efektów RL dla poszczególnych domen, jak i ogromną wartość szerokich, wielodomenowych zbiorów danych testowych dla rozumowania.
Wpływ uczenia między domenami a treningu w ramach jednej dziedziny
Aby lepiej zrozumieć, w jaki sposób RL wspiera rozumowanie w różnych domenach, naukowcy trenowali modele zarówno na danych indywidualnych, jak i mieszanych ze zbioru GURU. Odkryli, że domeny takie jak matematyka, kodowanie i nauki ścisłe odniosły większe korzyści z uczenia między domenami, co prawdopodobnie wynika z ich silniejszej obecności w fazie przedtreningowej. Trening na danych mieszanych okazał się równie skuteczny, a nawet lepszy od treningu jednodomenowego, co dowodzi, że łączenie różnorodnych zadań może wzmocnić ogólne zdolności rozumowania. Interesujące jest również to, że trening wyłącznie na trudniejszych przykładach poprawiał wydajność w danej domenie, ale jednocześnie redukował dokładność w prostszych funkcjach w innych obszarach. Te obserwacje sugerują, że różnorodność danych i zrównoważony poziom trudności są kluczem do skutecznych i transferowalnych umiejętności rozumowania.
Badanie, wykorzystując architekturę modeli o rozmiarach 7B i 32B oraz framework Verl z algorytmem GRPO, konsekwentnie oceniało wyniki w szerokim zakresie zadań, od matematyki po symulacje. Analizy wykazały, że modele GURU przewyższają bazowe modele specyficzne dla poszczególnych domen, a także dobrze radzą sobie z zadaniami wcześniej niewidzianymi. Co istotne, analiza Pass@k ujawniła, że wydajność zależy od typu zadania, rozmiaru modelu i ustawień dekodowania. Większe modele odnosiły większe korzyści z RL, a dostosowanie parametrów próbkowania, takich jak temperatura i top-p, przyczyniło się do zwiększenia różnorodności i zakresu rozumowania modelu.
Kierunek na ogólne rozumowanie
Podsumowując, GURU stanowi przełomowy, starannie dobrany zbiór danych RL, zawierający 92 000 wysokiej jakości, weryfikowalnych przykładów z sześciu domen. W przeciwieństwie do wcześniejszych badań RL, które koncentrowały się głównie na matematyce i kodowaniu, GURU otwiera drogę do szerszych studiów nad rozumowaniem, dostarczając sygnałów nagród specyficznych dla każdej domeny. Opracowane modele GURU-7B i GURU-32B osiągają najnowocześniejsze wyniki w 17 zadaniach benchmarkowych, szczególnie wyróżniając się w domenach niedostatecznie reprezentowanych podczas przedtreningu. Odkrycia te jasno wskazują, że RL może zarówno udoskonalać istniejącą wiedzę, jak i katalizować rozwój zupełnie nowych zdolności rozumowania. Co istotne, wszystkie dane, modele i kod zostały udostępnione publicznie, co ma na celu wsparcie dalszych badań nad ogólnymi zdolnościami rozumowania w sztucznej inteligencji.
