Przełom Google w trenowaniu LLM: Zredukowano potrzebę danych o 10 000 razy
W tradycyjnym procesie dostrajania dużych modeli językowych (LLM) do zadań wymagających głębokiego zrozumienia kontekstowego i kulturowego – takich jak moderacja treści reklamowych – konieczne było gromadzenie ogromnych, wysokiej jakości zestawów danych. To podejście wiązało się z niebagatelnymi kosztami i złożonością, wynikającą z faktu, że większość danych okazywała się nieistotna. W praktyce, tylko niewielki ułamek wszystkich przykładów miał realne znaczenie dla wykrywania naruszeń polityk. Problem potęgowało również to, że standardowe metody nie nadążały za zmieniającymi się zasadami czy pojawiającymi się nowymi wzorcami problematycznych zachowań, co wymuszało kosztowne i czasochłonne ponowne szkolenia.
Aktywne uczenie zmienia zasady gry
Google Research ogłosiło nowatorskie podejście, które fundamentalnie zmienia ten paradygmat. Zamiast zasypywać modele ogromnymi ilościami często redundantnych danych, inżynierowie Google wykorzystali zdolność LLM do identyfikacji niejednoznacznych przypadków oraz połączyli ją z ekspercką wiedzą ludzkich anotatorów. Kluczowym elementem jest aktywne uczenie, skupiające się na „przypadkach granicznych” – tych, w których model AI wykazuje największą niepewność.
Metoda działa w kilku etapach. Na początku, sam LLM pełni rolę „zwiadowcy”, przesiewając ogromne zbiory danych, liczące setki miliardów przykładów, w poszukiwaniu danych, co do których ma najmniejszą pewność. Następnie, ludzcy eksperci nie są już zmuszeni do etykietowania tysięcy losowych próbek. Zamiast tego, ich praca koncentruje się wyłącznie na tych nielicznych, granicznych i często mylących elementach. Proces ten ma charakter iteracyjny: z każdą kolejną partią nowych, „problematycznych” przykładów, model uczy się na podstawie zdezorientowania, które sam wcześniej wykazał. Konwergencja następuje szybko, a model jest dostrajany w wielu rundach, aż jego wyniki są spójne z ocenami ekspertów, co mierzone jest za pomocą współczynnika Kappa Cohena, porównującego zgodność między anotatorami.
Spektakularne rezultaty i szerokie implikacje
Wyniki są zgodne z tym, co zapowiadano. W eksperymentach z modelami Gemini Nano-1 i Nano-2, zgodność z ocenami ludzkich ekspertów osiągnięto lub nawet przewyższono, używając zaledwie 250–450 starannie wybranych przykładów. To radykalne zmniejszenie liczby danych w porównaniu do około 100 000 losowych etykiet pozyskanych metodą crowdsourcingu – redukcja o trzy do czterech rzędów wielkości. Co więcej, dla bardziej złożonych zadań i większych modeli, osiągnięto poprawę wydajności o 55–65% w stosunku do punktu bazowego, co świadczy o znacznie bardziej wiarygodnym dopasowaniu do wytycznych ekspertów. Należy podkreślić, że dla osiągnięcia tych zysków przy tak niewielkich zbiorach danych, niezbędna była konsekwentnie wysoka jakość etykiet, mierzone wartością Kappa Cohena przekraczającą 0.8.
Ten przełom ma daleko idące konsekwencje. Po pierwsze, znacząco obniża koszty. Mniejsza liczba przykładów do etykietowania oznacza drastyczne zmniejszenie wydatków na pracę ludzką i kapitał. Po drugie, umożliwia znacznie szybsze aktualizacje modeli. Możliwość ponownego szkolenia AI na zaledwie garstce przykładów sprawia, że adaptacja do nowych wzorców nadużyć, zmian w polityce czy przesunięć w domenach staje się szybka i realna. W perspektywie społecznej, zwiększona zdolność do zrozumienia kontekstowego i kulturowego podnosi bezpieczeństwo i niezawodność zautomatyzowanych systemów, które zajmują się wrażliwymi treściami.
Podsumowując, nowa metodologia Google pozwala na precyzyjne dostrajanie LLM do złożonych, ewoluujących zadań za pomocą zaledwie setek, a nie setek tysięcy, ukierunkowanych, wysokiej jakości etykiet. To sygnalizuje nadejście znacznie bardziej oszczędnego, elastycznego i efektywnego kosztowo rozwoju modeli językowych.
