LLM

Przełom w dopasowywaniu AI do preferencji człowieka: Skywork-Reward-V2 i SynPref-40M zmieniają zasady gry

Dotychczasowe modele wzmocnienia, choć kluczowe w procesie uczenia maszynowego ze sprzężeniem zwrotnym od ludzi (RLHF), zmagały się z adekwatnym odzwierciedleniem złożonych ludzkich preferencji. Ograniczenia wynikały głównie z niedoskonałości dostępnych zbiorów danych, często zbyt wąskich, sztucznie generowanych lub niewłaściwie weryfikowanych. Nawet zaawansowane techniki treningowe nie gwarantowały satysfakcjonujących rezultatów, a standardowe benchmarki, takie jak RewardBench, przestawały być wiarygodnym wskaźnikiem rzeczywistej wydajności modeli wzmocnienia w praktycznych zastosowaniach.

Tradycyjne metody tworzenia wysokiej jakości danych preferencyjnych, opierające się na ludzkich anonsatorach, są czasochłonne, kosztowne i podatne na niespójności. Poszukiwano rozwiązań łączących skalowalność AI z precyzją ludzkiego osądu. W odpowiedzi na te wyzwania, badacze z 2050 Research i Skywork AI zaprezentowali innowacyjne podejście, które może zrewolucjonizować dalszy rozwój AI.

Kluczowym elementem nowej strategii jest SynPref-40M, ogromny zbiór 40 milionów par preferencyjnych, stworzony w dwuetapowym procesie łączącym potencjał sztucznej inteligencji z precyzją ludzkiego nadzoru. Ludzcy anonsatorzy odpowiadają za rygorystyczną weryfikację jakości, podczas gdy duże modele językowe (LLM) skalują proces gromadzenia danych pod kierunkiem człowieka. Nie chodzi tu jedynie o wolumen danych, lecz o iteracyjne i staranne ich kuratorstwo, które integruje ludzką ekspertyzę ze zdolnością AI do masowego przetwarzania informacji.

Na podstawie wyselekcjonowanego podzbioru 26 milionów par preferencyjnych, powstała rodzina ośmiu modeli wzmocnienia Skywork-Reward-V2, o parametrach od 0.6B do 8B. Modele te osiągnęły wyniki uznane za stan sztuki na siedmiu wiodących benchmarkach, wykazując się doskonałym dopasowaniem, bezpieczeństwem, obiektywnością i odpornością. Co istotne, Skywork-Reward-V2 przewyższa zarówno znacznie większe modele (np. 70B parametrów), jak i nowsze, generatywne modele wzmocnienia.

Innowacyjna, dwuetapowa struktura kuratorstwa danych odgrywa tu kluczową rolę. Pierwszy etap polega na wykorzystaniu zweryfikowanych przez człowieka adnotacji, by naprowadzić LLM-y na etykietowanie różnorodnych atrybutów preferencji, a następnie iteracyjne szkolenie i analiza błędów, by udoskonalić model wzmocnienia. Drugi etap skaluje ten proces, wykorzystując sprawdzenia spójności między najlepszym modelem a modelem 'złotym’, wyszkolonym przez człowieka, filtrując wiarygodne próbki bez dalszego ludzkiego udziału. Takie podejście stanowi wyważone połączenie jakości i skalowalności.

Skywork-Reward-V2, pomimo relatywnie mniejszej liczby parametrów (od 0.6B do 8B), wykorzystuje wysokiej jakości dane z SynPref-40M i efektywne środowiska treningowe, co pozwala mu na lepszą generalizację w rzeczywistych scenariuszach RLHF. Przykładowo, średniej wielkości Qwen3-1.7B osiąga wyniki lepsze niż niektóre modele o rozmiarze 70B. To potwierdza, że jakość danych treningowych i metodologia kuratorstwa mają większy wpływ na wydajność niż sama liczba parametrów modelu.

Podsumowując, SynPref-40M i Skywork-Reward-V2 stanowią znaczący krok naprzód w dziedzinie dopasowywania sztucznej inteligencji do ludzkich wartości. Dzięki połączeniu ludzkiego osądu z masową skalowalnością LLM, udało się stworzyć modele, które nie tylko lepiej odzwierciedlają ludzkie preferencje, ale także są bardziej poprawne, bezpieczne i odporne na błędy. Niniejsze badania potwierdzają, że jakość danych i metoda ich kuratorstwa są kluczowymi czynnikami sukcesu, a dalsze eksploracje w tym kierunku będą miały fundamentalne znaczenie dla przyszłego rozwoju i dopasowania dużych modeli językowych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *