LLM

Sakana.ai prezentuje TransEvalnia: Nowe standardy oceny jakości tłumaczeń przez sztuczną inteligencję

Systemy tłumaczenia wspierane przez duże modele językowe (LLM) osiągnęły poziom, który w specyficznych zastosowaniach bywa wyższy niż praca ludzkich tłumaczy. W miarę ich ewolucji, szczególnie w obszarze zadań złożonych, takich jak tłumaczenie dokumentów czy literatury, postęp staje się trudniejszy do osiągnięcia, a jego precyzyjna ocena stanowi wyzwanie. Dotychczas stosowane automatyczne metryki, w tym powszechnie znany BLEU, nie dostarczają uzasadnienia dla przypisywanych wyników. W sytuacji, gdy jakość tłumaczenia maszynowego zbliża się do poziomu ludzkiego, użytkownicy potrzebują ewaluacji, które wykraczają poza proste miary liczbowe, oferując uzasadnienie w kluczowych wymiarach, takich jak dokładność, terminologia czy adekwatność dla odbiorcy.

Krytyka tradycyjnych metryk i nowe podejście

Metryka BLEU przez długi czas stanowiła standard w ocenie tłumaczeń maszynowych (MT). Jej użyteczność jest jednak coraz bardziej kwestionowana, ponieważ nowoczesne systemy translatorskie dorównują, a często przewyższają, tradycyjne osiągnięcia ludzkich tłumaczy. Nowsze metryki, takie jak BLEURT, COMET czy MetricX, wykorzystują zaawansowane modele językowe do precyzyjniejszej oceny jakości tłumaczeń.

Ponadto duże modele językowe, takie jak GPT czy PaLM2, umożliwiają już ewaluację w trybie zero-shot lub ustrukturyzowaną, a nawet generowanie informacji zwrotnych w stylu MQM (Multidimensional Quality Metrics). Techniki porównań parami również zwiększyły zgodność z ocenami ludzkimi. Badania dowodzą, że zlecanie modelom wyjaśniania ich wyborów poprawia jakość podejmowanych decyzji. Mimo potencjału metody oparte na uzasadnieniu nadal są niedostatecznie wykorzystywane w ocenie tłumaczeń maszynowych.

TransEvalnia: Innowacja od Sakana.ai

Naukowcy z Sakana.ai opracowali TransEvalnia – system oceny i rankingu tłumaczeń, który wykorzystuje rozumowanie oparte na promptach do analizy jakości tłumaczeń. System dostarcza szczegółowe informacje zwrotne, posługując się wybranymi wymiarami MQM, ocenia tłumaczenia i przypisuje im wyniki na 5-stopniowej skali Likerta, w tym ogólną ocenę. TransEvalnia dorównuje lub przewyższa wiodący model MT-Ranker w wielu parach językowych i zadaniach, w tym angielsko-japońskim i chińsko-angielskim.

Testy przeprowadzone z udziałem LLM-ów, takich jak Claude 3.5 i Qwen-2.5, wykazały dużą zgodność ocen systemu z ocenami ludzkimi. Zespół Sakana.ai zajął się również problemem stronniczości pozycji (ang. position bias), udostępniając publicznie wszystkie dane, wyniki rozumowania oraz kod źródłowy.

Szczegółowa metodologia oceny

Metodologia TransEvalnii koncentruje się na ocenie tłumaczeń w kluczowych aspektach jakości, w tym dokładności, terminologii, adekwatności dla docelowej grupy odbiorców oraz klarowności. W przypadku tekstów poetyckich, takich jak haiku, standardowe sprawdzanie gramatyki zastąpiono oceną tonu emocjonalnego. Tłumaczenia są dzielone na segmenty i oceniane sekcja po sekcji, otrzymując wynik w skali 1-5, a następnie są rankowane.

W celu redukcji stronniczości, badanie porównało trzy strategie oceny: jednoetapową, dwuetapową oraz bardziej niezawodną metodę przeplatania (ang. interleaving). Przetestowano również metodę „bez uzasadnienia”, która jednak cierpi na brak przejrzystości i jest podatna na błędy. Następnie ludzcy eksperci przeglądali wybrane tłumaczenia, porównując swoje osądy z wynikami systemu, co pozwoliło na weryfikację jego zgodności z profesjonalnymi standardami.

Wyniki i perspektywy

Ocena systemów rankujących tłumaczenia, przeprowadzona na zbiorach danych z ludzkimi wynikami, porównywała modele TransEvalnii (Qwen i Sonnet) z MT-Rankerem, COMET-22/23, XCOMET-XXL oraz MetricX-XXL. Na zbiorze WMT-2024 angielsko-hiszpańskim, MT-Ranker osiągnął najlepsze wyniki, prawdopodobnie dzięki bogatym danym treningowym. Jednak w większości innych zbiorów danych, TransEvalnia dorównywała lub przewyższała MT-Rankera; na przykład, podejście Qwena bez uzasadnienia zapewniło zwycięstwo na WMT-2023 angielsko-niemieckim.

Stronniczość pozycji została przeanalizowana za pomocą wskaźników niespójności, gdzie metody przeplatania często wykazywały najniższą stronniczość (np. 1.04 na Hard angielsko-japońskim). Ludzcy oceniający przyznali Sonnetowi najwyższe ogólne wyniki w skali Likerta (4.37–4.61), a oceny Sonnetu wykazywały silną korelację z ocenami ludzkimi (korelacja Spearmana R ~0.51–0.54).

Podsumowując, TransEvalnia stanowi istotny krok w rozwoju oceny tłumaczeń wspomaganej przez LLM. System dostarcza szczegółowe wyniki w kluczowych wymiarach jakości, czerpiąc inspirację z frameworku MQM i skutecznie wybierając lepsze tłumaczenie spośród dostępnych opcji. Choć MetricX-XXL nadal prowadzi na WMT ze względu na specyficzne dostrojenie, TransEvalnia często dorównuje lub przewyższa MT-Rankera w różnych parach językowych WMT. Ludzcy oceniający uznali wyniki Sonnetu za wiarygodne, a wyniki wyraźnie korelowały z ludzkimi osądami. Zespół z Sakana.ai skutecznie zbadał również rozwiązania problemu stronniczości pozycji, udostępniając wszystkie dane do publicznego wglądu. To istotny krok w kierunku większej przejrzystości i obiektywności w ocenie systemów tłumaczenia maszynowego.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *