LLM

Tencent prezentuje HY-MT1.5: nowe modele do tłumaczeń maszynowych ze skalowalnością od urządzeń mobilnych po chmurę

Tencent Hunyuan, dział badawczy giganta technologicznego, zaprezentował HY-MT1.5 – nową rodzinę modeli do tłumaczeń maszynowych. Rozwiązanie to ma na celu zrewolucjonizować sposób, w jaki funkcjonują tłumaczenia automatyczne, poprzez zapewnienie skalowalności od lekkich wdrożeń na urządzeniach mobilnych po wymagające systemy chmurowe. Modele HY-MT1.5-1.8B i HY-MT1.5-7B, dostępne z otwartymi wagami na GitHubie i Hugging Face, obsługują wzajemne tłumaczenia dla 33 języków, w tym 5 dialektów i regionalnych wariantów, co stanowi znaczący krok naprzód w demokratyzacji dostępu do zaawansowanych technologii tłumaczeniowych.

Skalowalność i wydajność w centrum uwagi

Rodzina HY-MT1.5 składa się z dwóch głównych wariantów. Model HY-MT1.5-7B stanowi ulepszoną wersję Hunyuan-MT-7B, systemu, który zwyciężył w konkursie WMT25. Zoptymalizowano go pod kątem tłumaczeń wyjaśniających oraz scenariuszy mieszanych języków. Wprowadzono też natywne wsparcie dla interwencji terminologicznej, tłumaczenia kontekstowego i formatowania. Jest to rozwiązanie dedykowane serwerom i zaawansowanym wdrożeniom brzegowym (EDGE), gdzie akceptowalny jest czas odpowiedzi rzędu 0,45 sekundy w zamian za wyższą jakość.

Natomiast HY-MT1.5-1.8B to bardziej kompaktowy wariant. Charakteryzuje się on liczbą parametrów stanowiącą mniej niż jedną trzecią jego większego odpowiednika, jednocześnie oferując porównywalną wydajność tłumaczenia w testach porównawczych. Po kwantyzacji, model 1.8B może działać na urządzeniach brzegowych z zaledwie 1 GB pamięci RAM, osiągając średni czas odpowiedzi około 0,18 sekundy dla chińskich wejść o długości około 50 tokenów. Co istotne, przekracza on jakość oferowaną przez mainstreamowe komercyjne interfejsy API do tłumaczeń.

Kompleksowe podejście do trenowania

Zespół badawczy Tencent definiuje HY-MT1.5 jako model językowy wyspecjalizowany w tłumaczeniach, trenowany w pięcioetapowym procesie. Całość rozpoczyna się od ogólnego wstępnego trenowania na dużych zbiorach wielojęzycznego tekstu, co buduje wspólne reprezentacje między językami. Następuje wstępne trenowanie zorientowane na zadania tłumaczeniowe, podczas którego model jest eksponowany na równoległe korpusy danych. Kolejnym etapem jest nadzorowane dostrajanie z wykorzystaniem wysokiej jakości danych na poziomie zdań i dokumentów, co poprawia poprawność tłumaczeń, zakres domen oraz zachowanie specyficzne dla kierunku tłumaczenia.

Kluczowym elementem jest destylacja wiedzy z modelu 7B do 1.8B. Większy model pełni rolę nauczyciela, przekazując swoje zdolności mniejszemu, co umożliwia osiągnięcie wysokiej jakości tłumaczeń przy znacznie niższych kosztach obliczeniowych. Ostatnim etapem jest wzmocnione uczenie z oceną opartą na kryteriach, gdzie recenzenci ludzcy oceniają tłumaczenia pod kątem dokładności, płynności, idiomatyczności i zgodności kulturowej, a model uczy się optymalizować swoje wyniki na podstawie tych ocen. Proces ten, zorientowany specyficznie na tłumaczenia maszynowe, odróżnia się od treningu modeli językowych ogólnego przeznaczenia (LLM) poprzez połączenie danych nadzorowanych, destylacji w domenie tłumaczeniowej oraz wzmocnionego uczenia z precyzyjnymi rubrykami tłumaczeniowymi.

Wyniki i praktyczne zastosowania

Modele HY-MT1.5 zostały poddane rygorystycznym testom na Flores 200, WMT25 oraz w benchmarku dla par językowych mandaryński-języki mniejszościowe. HY-MT1.5-7B osiągnął na Flores 200 wyniki XCOMET-XXL, które przewyższają wyspecjalizowane modele tłumaczeniowe, takie jak iFLYTEK Translator czy Doubao Translator, a także dorównują większym modelom ogólnego przeznaczenia, takim jak Qwen3-235B-A22B. Na WMT25, HY-MT1.5-7B uzyskał wynik znacząco wyższy niż Gemini 3.0 Pro oraz modele zorientowane na tłumaczenia, takie jak Seed-X-PPO-7B i Tower-Plus-72B. Wariant 1.8B, mimo mniejszych rozmiarów, również przewyższył wiele średniej wielkości modeli ogólnego przeznaczenia.

Co więcej, HY-MT1.5 oferuje praktyczne funkcje istotne w systemach produkcyjnych. Dzięki odpowiednim szablonom promptów, możliwe jest precyzyjne sterowanie terminologią, co jest kluczowe w sektorach wymagających spójności, takich jak prawo czy medycyna. Implementacja tłumaczeń kontekstowych pozwala na dokładniejsze interpretowanie znaczeń słów w zależności od otaczającego tekstu. Zdolność do zachowania formatowania, np. znaczników HTML lub XML, umożliwia tłumaczenie treści z zachowaniem ich struktury. Te funkcje, zaimplementowane jako formaty promptów, są dostępne poprzez standardowe stosy LLM.

Kwantyzacja i wdrożenie na urządzeniach brzegowych

Kwantyzacja odgrywa kluczową rolę w umożliwieniu wdrożenia HY-MT1.5-1.8B na urządzeniach z ograniczoną pamięcią. Testy wykazały, że kwantyzacja FP8 pozwala zachować jakość tłumaczenia zbliżoną do modelu pełnej precyzji, natomiast Int4, choć redukuje rozmiar, wprowadza pewne spadki jakości. Tencent udostępnia w Hugging Face warianty FP8 i GPTQ Int4 dla obu modeli, a także wersje GGUF do lokalnych zastosowań. Dzięki tym technikom, model 1.8B jest w stanie działać na urządzeniach z około 1 GB pamięci RAM, oferując niski czas opóźnienia na sprzęcie konsumenckim.

Ogólnie rzecz biorąc, HY-MT1.5 stanowi istotny rozwój w dziedzinie tłumaczeń maszynowych, oferując skalowalne i wydajne rozwiązania zarówno dla indywidualnych użytkowników, jak i profesjonalnych scenariuszy.