TOWER+: Nowa Era Wielojęzycznych Modeli Językowych od Unbabel
Branża sztucznej inteligencji odnotowuje stały postęp w dziedzinie tłumaczenia maszynowego, w dużej mierze napędzany rozwojem wielkich modeli językowych (LLM). Modele te, szkolone na gigantycznych korpusach danych, są zdolne do przekładania tekstu między dziesiątkami języków i dialektów, jednocześnie wychwytując subtelne niuanse lingwistyczne. Niestety, dotychczasowe podejścia często wymagały bolesnego kompromisu: optymalizacja modelu pod kątem precyzji tłumaczenia nierzadko negatywnie wpływała na jego zdolność do podążania za instrukcjami czy prowadzenia konwersacji. W efekcie, narzędzia ogólnego przeznaczenia rzadko sprostały profesjonalnym wymaganiom jakościowym, zwłaszcza w kontekście specjalistycznego słownictwa lub złożonych formatowań.
Wyzwanie polegało na pogodzeniu potrzeby wysoce precyzyjnych, uwzględniających kontekst kulturowy tłumaczeń z wszechstronnością modeli, umożliwiającą im generowanie kodu, rozwiązywanie problemów, czy dostosowywanie się do specyficznych wymagań użytkownika. Przedsiębiorstwa potrzebowały systemów, które dynamicznie adaptowałyby się do wymagań domenowych i preferencji użytkowników, bez utraty płynności. Dotychczasowe benchmarki, takie jak WMT24++ (obejmujący 55 wariantów językowych) oraz IFEval (skupiający się na 541 podpowiedziach instrukcyjnych), konsekwentnie wskazywały na lukę między jakością wyspecjalizowanych tłumaczeń a uniwersalnością modeli, co stało się znaczącą przeszkodą w ich szerokim wdrożeniu komercyjnym.
Innowacyjne podejście do szkolenia modeli językowych
Naukowcy z Unbabel, Instituto de Telecomunicações, Instituto Superior Técnico, Universidade de Lisboa (Lisbon ELLIS Unit) oraz MICS, CentraleSupélec, Université Paris-Saclay, podjęli to wyzwanie, wprowadzając TOWER+. Jest to pakiet modeli dostępnych w różnych skalach parametrów – 2 miliardy, 9 miliardów i 72 miliardy. Celem zespołu było zbadanie optymalnego kompromisu między specjalizacją tłumaczeniową a ogólną użytecznością. Kluczowym innowacją jest zastosowanie ujednoliconego potoku szkoleniowego, który ma umieścić modele TOWER+ na granicy Pareto, osiągając jednocześnie wysoką wydajność tłumaczenia i solidne ogólne możliwości, bez poświęcania jednej zdolności na rzecz drugiej. To podejście ma zbalansować specyficzne wymagania tłumaczenia maszynowego z elastycznością niezbędną do zadań konwersacyjnych i instrukcyjnych.
Złożony proces szkoleniowy
Potok szkoleniowy TOWER+ rozpoczyna się od kontynuowanego wstępnego treningu na starannie dobranych danych, obejmujących treści jednojęzyczne, przefiltrowane zdania paralelne sformatowane jako instrukcje tłumaczeniowe, oraz niewielki ułamek przykładów przypominających instrukcje. Następnie, ustrukturyzowane dostrajanie (supervised fine-tuning) udoskonala model, wykorzystując kombinację zadań tłumaczeniowych i różnorodnych scenariuszy podążania za instrukcjami, jak generowanie kodu, rozwiązywanie problemów matematycznych czy odpowiadanie na pytania.
Kolejny etap to optymalizacja preferencji, która wykorzystuje ważoną optymalizację preferencji i względne aktualizacje polityki grupowej, trenowane na sygnałach poza polityką oraz wersjach tłumaczeń poddanych edycji przez człowieka. Ostatnia faza to uczenie ze wzmocnieniem z weryfikowalnymi nagrodami, które wzmacniają precyzyjne przestrzeganie wytycznych dotyczących transformacji, używając sprawdzania opartego na regexach i adnotacji preferencji. Taka kombinacja wstępnego treningu, nadzorowanej walidacji i aktualizacji sterowanych nagrodami ma zapewnić solidną równowagę między specjalistyczną dokładnością tłumaczenia a wszechstronną biegłością językową.
Wyniki i nowe standardy
Model TOWER+ 9B osiągnął wskaźnik wygranych wynoszący 33.47% w wielojęzycznych testach czatów ogólnych, jednocześnie uzyskując wynik XCOMET-XXL na poziomie 84.38 w 24 parach językowych, co przewyższa podobne modele o otwartym kodzie źródłowym. Flagowy wariant z 72 miliardami parametrów zanotował 54.52% wygranych na M-ArenaHard, osiągnął wynik IFEval w zakresie podążania za instrukcjami wynoszący 89.02, oraz poziom XCOMET-XXL 83.29 w pełnym benchmarku WMT24++. Na łącznym benchmarku tłumaczenia i podążania za instrukcjami, IF-MT, model uzyskał 5.55 za przestrzeganie instrukcji i 88.95 za wierność tłumaczenia, ustanawiając nowe standardy wśród modeli o otwartym kodzie źródłowym.
Nawet mniejszy model 2B dorównał większym bazowym modelom, osiągając 6.33% na M-ArenaHard i 87.65% jakości tłumaczenia IF-MT. TOWER+ konsekwentnie dorównuje lub przewyższa takie modele jak GPT-4O-1120, Claude-Sonnet-3.7, ALMA-R, GEMMA-2 i LLAMA-3.3 zarówno w zadaniach specjalistycznych, jak i ogólnych. Badania te dostarczają reprodukowalny przepis na budowanie LLM, które jednocześnie służą potrzebom tłumaczeniowym i konwersacyjnym, redukując proliferację modeli i koszty operacyjne.
Podsumowując, poprzez ujednolicenie wstępnego treningu na dużą skalę ze specjalistycznymi etapami wyrównywania, TOWER+ od Unbabel dowodzi, że doskonałość w tłumaczeniu i wszechstronność konwersacyjna mogą współistnieć w ramach jednego pakietu modeli o otwartym kodzie źródłowym. Modele te osiągają optymalny kompromis w zakresie wierności tłumaczenia, podążania za instrukcjami i ogólnych zdolności czatowych, oferując skalowalny plan dla przyszłego rozwoju modeli LLM skupionych na konkretnych domenach.
