LLM

Tencent open-source’uje Hunyuan-MT-7B: Nowy standard w wielojęzykowym tłumaczeniu maszynowym

Zespół Hunyuan z Tencent zaprezentował światu Hunyuan-MT-7B, przełomowy model tłumaczeniowy, oraz Hunyuan-MT-Chimera-7B, model zespołowy. Modele te, stworzone z myślą o wielojęzykowym tłumaczeniu maszynowym, zadebiutowały podczas konkursu WMT2024 General Machine Translation shared task, gdzie Hunyuan-MT-7B zdobył pierwsze miejsce w 30 z 31 par językowych. To imponujące osiągnięcie stawia Tencent w czołówce firm rozwijających technologie AI.

Hunyuan-MT-7B: Potęga w małym rozmiarze

Hunyuan-MT-7B to model z 7 miliardami parametrów, obsługujący tłumaczenia w 33 językach, w tym w językach mniejszości etnicznych Chin, takich jak tybetański, mongolski, ujgurski i kazachski. Model został zoptymalizowany zarówno pod kątem języków o dużych zasobach danych, jak i tych o zasobach ograniczonych. Dzięki temu osiąga on wyniki lepsze niż konkurencyjne modele o podobnej wielkości.

Hunyuan-MT-Chimera-7B: synergia tłumaczeń

Hunyuan-MT-Chimera-7B to zintegrowany model, który łączy wyniki z różnych systemów tłumaczeniowych. Wykorzystuje on uczenie przez wzmacnianie i techniki agregacji, aby generować dopracowane tłumaczenia. Co istotne, jest to pierwszy tego typu model tłumaczeniowy open-source, który podnosi jakość tłumaczeń ponad możliwości pojedynczych systemów.

Architektura szkolenia: pięć etapów do perfekcji

Modele Hunyuan trenowane były w oparciu o pięcioetapowy proces, zaprojektowany specjalnie dla zadań tłumaczeniowych:

  1. Ogólny pre-trening: Model przetwarzany był na 1.3 bilionach tokenów w 112 językach i dialektach. Korpusy wielojęzyczne oceniano pod kątem wartości wiedzy, autentyczności i stylu pisania. Zachowano różnorodność poprzez system tagowania tematycznego.
  2. Pre-trening ukierunkowany na MT: Wykorzystano korpusy jednojęzyczne z mC4 i OSCAR, przefiltrowane za pomocą fastText (identyfikacja języka), minLSH (deduplikacja) i KenLM (filtrowanie perpleksji). Korpusy równoległe pochodziły z OPUS i ParaCrawl, przefiltrowane przez CometKiwi. Ponowne wykorzystanie danych z ogólnego pre-treningu (20%) zapobiegało katastrofalnemu zapominaniu.
  3. Nadzorowane dostrajanie (SFT): Około 3 miliony par równoległych (Flores-200, zestawy testowe WMT, dane mandaryńsko-mniejszościowe i syntetyczne).
  4. Uczenie przez wzmacnianie (RL): Algorytm GRPO z funkcjami XCOMET-XXL i DeepSeek-V3-0324, nagradzającymi wysoką jakość tłumaczeń.
  5. Weak-to-Strong RL: W Chimera-7B zastosowano łączenie wyników poprzez nagradzanie jakości.

Hunyuan-MT-7B vs. konkurencja: liczby mówią same za siebie

Model Tencent wypada lepiej niż Tłumacz Google o 15–65% w różnych kategoriach ewaluacji. Przewyższa wyspecjalizowane modele tłumaczeniowe, takie jak Tower-Plus-9B i Seed-X-PPO-7B, mimo że ma mniej parametrów. Chimera-7B poprawia wyniki o ~2.3% na FLORES-200, szczególnie w tłumaczeniach chińsko-innych i nieangielsko-niechińskich.

Ewaluacja ludzka: subtelne różnice, istotna jakość

W ewaluacji ludzkiej, Hunyuan-MT-7B uzyskał wynik 3.189, zbliżony do Gemini-2.5-Pro (3.223) i DeepSeek-V3 (3.219), a znacznie wyższy niż Tłumacz Google (2.344). Potwierdza to, że mimo mniejszej liczby parametrów, Hunyuan-MT-7B oferuje jakość porównywalną z znacznie większymi, zamkniętymi modelami.

Studia przypadków: kontekst i precyzja

Model poprawnie tłumaczy odniesienia kulturowe, idiomy, terminy medyczne i języki mniejszościowe, gdzie inne modele zawodzą. Chimera-7B dodaje ulepszenia w żargonie gier, wzmocnieniach i terminologii sportowej.

Nowa era tłumaczeń maszynowych

Wypuszczenie Hunyuan-MT-7B i Hunyuan-MT-Chimera-7B przez Tencent wyznacza nowy standard dla tłumaczeń typu open-source. Łącząc starannie zaprojektowane ramy treningowe ze specjalnym naciskiem na tłumaczenia języków zagrożonych, modele osiągają jakość porównywalną lub wyższą niż większe systemy zamknięte. Udostępnienie tych modeli społeczności badawczej AI to krok milowy w rozwoju dostępnych narzędzi tłumaczeniowych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *