R-Zero: Sztuczna inteligencja uczy się sama, generując dane treningowe od zera
W dziedzinie sztucznej inteligencji, szczególnie w rozwoju dużych modeli językowych (LLM), od dawna istnieje problem bazowania na gigantycznych zbiorach danych, opatrzonych etykietami przez ludzi. Ogranicza to nie tylko szybkość postępu, ale również potencjał SI, która mogłaby przekroczyć ludzkie możliwości. Grupa badaczy z Tencent AI Seattle Lab oraz kilku uniwersytetów zaproponowała rewolucyjne rozwiązanie: R-Zero – framework, który pozwala modelom rozumowania na samodoskonalenie bez jakiejkolwiek zewnętrznej ingerencji w postaci oznaczonych danych.
Koniec ery ludzkiej kuracji danych
Dotychczasowy rozwój LLM był nierozerwalnie związany z pracochłonnym procesem tworzenia i oznaczania danych przez ludzi. To podejście jest nie tylko zasobochłonne, ale również fundamentalnie ograniczone ludzką wiedzą. Nawet metody, które wykorzystują własne wyniki LLM do generowania sygnałów nagrody, nadal opierają się na istniejących zbiorach nierozwiązanych zadań. R-Zero zrywa z tymi zależnościami, otwierając drogę do prawdziwie autonomicznej ewolucji SI.
R-Zero: Samodoskonalenie od zera
Kluczową innowacją R-Zero jest wprowadzenie dynamicznej koewolucji między dwoma instancjami bazowego modelu:
- Challenger (Wyzwanie): Odpowiada za generowanie nowych, wymagających zadań rozumowania, które balansują na granicy możliwości Solvera.
- Solver (Rozwiązujący): Trenowany do rozwiązywania coraz trudniejszych problemów stawianych przez Challengera, iteracyjnie poprawiając swoje umiejętności.
Ta synergia umożliwia samogenerowanie się danych treningowych i ich ciągłe dostosowywanie do ewoluujących mocnych i słabych stron modelu. Proces ten przebiega następująco:
- Trening Challengera: Trenowany za pomocą uczenia ze wzmocnieniem (konkretnie Group Relative Policy Optimization – GRPO), generuje różnorodne, trudne do rozwiązania pytania. Sygnał nagrody dla każdego pytania opiera się na niepewności Solvera – najwyższy jest wtedy, gdy odpowiedzi Solvera są maksymalnie niespójne (dokładność empiryczna zbliża się do 50%).
- Trening Solvera: Solver jest dostrajany na problemach wygenerowanych przez Challengera. Pseudo-etykiety (odpowiedzi) są określane przez głosowanie większościowe wśród własnych odpowiedzi Solvera. Do treningu wykorzystywane są tylko pytania z odpowiedziami, które nie są ani zbyt spójne, ani zbyt rozproszone (tj. znajdują się w informacyjnym paśmie).
- Iteracyjna pętla: Challenger i Solver naprzemiennie zamieniają się rolami, koewoluując przez kilka rund, stopniowo poprawiając umiejętności rozumowania bez interwencji człowieka.
Kluczowe innowacje techniczne
- Group Relative Policy Optimization (GRPO): Algorytm uczenia ze wzmocnieniem, który normalizuje nagrodę za każdą wygenerowaną odpowiedź względem grupy odpowiedzi dla tego samego pytania. Ta metoda skutecznie dostraja politykę LLM bez oddzielnej funkcji wartości.
- Uncertainty-Driven Curriculum: Challenger jest nagradzany za generowanie problemów na granicy możliwości Solvera – ani zbyt łatwych, ani niemożliwych do rozwiązania. Funkcja nagrody osiąga szczyt dla zadań, w których Solver osiąga 50% dokładności, maksymalizując efektywność uczenia się.
- Repetition Penalty and Format Checks: Aby zagwarantować różnorodne i dobrze ustrukturyzowane dane treningowe, kara za powtarzanie zniechęca do generowania podobnych pytań, a rygorystyczne kontrole formatu zapewniają jakość danych.
- Pseudo-Label Quality Control: Do treningu wykorzystywane są tylko pary pytanie-odpowiedź o pośredniej spójności odpowiedzi, co pozwala odfiltrować niejednoznaczne lub źle postawione problemy i skalibrować dokładność etykiet.
Wyniki empiryczne
R-Zero został przetestowany na siedmiu rygorystycznych matematycznych benchmarkach, w tym AMC, Minerva, MATH-500, GSM8K, Olympiad-Bench i AIME. W porównaniu z modelem bazowym i nieprzeszkolonym Challengerem, trzy iteracje R-Zero doprowadziły do znacznej poprawy dokładności rozumowania we wszystkich rozmiarach i architekturach modeli (np. Qwen3-8B-Base poprawił średni wynik z 49,18 do 54,69 po trzech iteracjach).
Co ważne, poprawa dzięki R-Zero przekłada się również na inne obszary niż matematyka. Benchmarki takie jak MMLU-Pro, SuperGPQA i BIG-Bench Extra Hard (BBEH) wykazują znaczny wzrost dokładności rozumowania w ogólnych dziedzinach (np. ogólna średnia Qwen3-8B-Base wzrasta z 34,49 do 38,73), co demonstruje silne efekty transferu.
Podsumowanie
R-Zero to ważny krok w kierunku samowystarczalnych modeli LLM o nadludzkich zdolnościach rozumowania. Jego w pełni autonomiczny potok treningowy co-ewolucyjny oferuje nie tylko silne empiryczne korzyści w zakresie rozumowania, ale także nowe spojrzenie na skalowalny rozwój sztucznej inteligencji bez danych. Badacze i praktycy mogą już dziś eksperymentować z tym frameworkiem, wykorzystując narzędzia open-source, aby zapoczątkować nową erę modeli językowych skoncentrowanych na rozumowaniu.
