Defragmentacja i ponowna kompozycja tekstu, ilustrujące możliwości HunyuanOCR w rozpoznawaniu i analizie dokumentów.

HunyuanOCR: Nowa ergonomia rozpoznawania tekstu i analizy dokumentów od Tencent

2025-12-02 AI Sight

HunyuanOCR, bazując na natywnej architekturze multimodalnej Hunyuan, agreguje w sobie wiele funkcji, takich jak wykrywanie i parsowanie tekstu, ekstrakcja informacji, odpowiadanie na pytania wizualne oraz tłumaczenie tekstu z obrazów – wszystko w ramach jednego, zintegrowanego potoku przetwarzania. Jego projekt zakłada osiągnięcie rezultatów porównywalnych lub przewyższających możliwości znacznie większych, ogólnego przeznaczenia modeli VLM, takich jak Gemini 2.5 czy Qwen3 VL, jednak przy znacznie mniejszej złożoności parametrów.

Architektura skrojona pod OCR

Kluczowym elementem HunyuanOCR jest jego innowacyjna architektura, składająca się z trzech głównych modułów. Pierwszym jest Hunyuan ViT – natywny wizualny enkoder rozdzielczości, bazujący na SigLIP-v2-400M. Co istotne, enkoder ten został rozszerzony o zdolność przetwarzania obrazów o dowolnej rozdzielczości wejściowej, dzięki adaptacyjnemu podziałowi na łatki, który zachowuje oryginalne proporcje obrazu. Obrazy są dzielone na fragmenty zgodnie z ich proporcjami, a następnie przetwarzane z globalną uwagą, co znacząco poprawia rozpoznawanie długich linii tekstu, obszernych dokumentów oraz skanów niskiej jakości.

Drugim modułem jest adaptacyjny konektor MLP, odpowiedzialny za uczenie się pooling na wymiarze przestrzennym. Kompresuje on gęste tokeny wizualne do krótszej sekwencji, jednocześnie zachowując istotne informacje z regionów o dużej gęstości tekstu. Takie podejście redukuje długość sekwencji przekazywanej do modelu językowego oraz obniża wymagania obliczeniowe, zachowując jednocześnie szczegóły kluczowe dla OCR.

Sercem modelu jest lekki model językowy, bazujący na gęstej architekturze Hunyuan 0.5B i wykorzystujący XD RoPE. Technologia XD RoPE dzieli osadzenia pozycji obrotowych na cztery podprzestrzenie – dla tekstu, wysokości, szerokości i czasu – co umożliwia modelowi natywne wyrównanie jednowymiarowego porządku tokenów z dwuwymiarowym układem i trójwymiarową strukturą czasoprzestrzenną. Dzięki temu HunyuanOCR bez problemu radzi sobie z wielokolumnowymi stronami, przepływem tekstu między stronami oraz sekwencjami klatek wideo.

Proces trenowania i wnioskowania odbywa się w pełni end-to-end, eliminując potrzebę zewnętrznej analizy układu czy post-processingu. Wszystkie zadania wyrażane są jako podpowiedzi w języku naturalnym i przetwarzane w jednym przejściu do przodu, co eliminuje propagację błędów na poszczególnych etapach potoku i upraszcza wdrożenie.

Proces trenowania i dane

HunyuanOCR został wytrenowany na imponującym zbiorze ponad 200 milionów par obraz-tekst, obejmujących dziewięć scenariuszy z życia wziętych, takich jak widoki uliczne, dokumenty, reklamy, tekst pisany ręcznie, zrzuty ekranu, karty i certyfikaty, faktury, interfejsy gier, klatki wideo i artystyczna typografia. Korpus ten obejmuje ponad 130 języków. Dane syntetyczne pochodzą z wielojęzycznego generatora obsługującego skrypty pisane od prawej do lewej oraz renderowanie na poziomie akapitu. Pipeline kontroluje czcionkę, język, rotację, wartości RGB oraz stosuje zniekształcenia, rozmycia i lokalne zmiany oświetlenia, aby symulować nagrania mobilne i trudne warunki.

Proces wstępnego trenowania składa się z czterech etapów. Pierwszy etap koncentruje się na wyrównaniu wizualno-językowym za pomocą czystego tekstu, syntetycznych danych do parsowania i rozpoznawania oraz ogólnych danych do tworzenia podpisów. Drugi etap obejmuje wstępne trenowanie multimodalne na 300 miliardach tokenów, mieszając czysty tekst z syntetycznymi próbkami rozpoznawania, parsowania, tłumaczenia i VQA. Etap trzeci wydłuża kontekst do 32 tysięcy tokenów, skupiając się na długich dokumentach i tekstach. Ostatni etap to dostrajanie nadzorowane zorientowane na aplikacje, bazujące na 24 miliardach tokenów danych z adnotacjami ludzkimi i tzw. „hard negative data”, utrzymując kontekst 32 tysięcy i ujednolicone szablony instrukcji.

Wzmocnienie uczenia z weryfikowalnymi nagrodami

Po wstępnym trenowaniu nadzorowanym, HunyuanOCR jest dalej optymalizowany za pomocą uczenia wzmocnionego. Zespół badawczy zastosował Group Relative Policy Optimization (GRPO) i system wzmocnienia uczenia z weryfikowalnymi nagrodami dla zadań strukturyzowanych. Dla rozpoznawania tekstu nagroda bazuje na Intersection over Union (IoU) dopasowaniu obiektów w połączeniu z normalizowaną odległością edycyjną tekstu. W przypadku parsowania dokumentów nagroda wykorzystuje normalizowaną odległość edycyjną między wygenerowaną strukturą a referencją. Dla zadań VQA i tłumaczenia system wykorzystuje model językowy jako sędziego, gdzie VQA używa binarnej nagrody sprawdzającej semantyczne dopasowanie, a tłumaczenie wykorzystuje model LLM do punktacji w stylu COMET. Ramy szkoleniowe wymuszają limity długości i ścisłe formaty, przydzielając zerową nagrodę, gdy wyjścia przekraczają limity lub łamią schemat, stabilizując optymalizację i zachęcając do generowania poprawnych wyjść JSON lub ustrukturyzowanych.

Wyniki benchmarkingowe i konkurencja

Na wewnętrznym benchmarku rozpoznawania tekstu, składającym się z 900 obrazów w dziewięciu kategoriach, HunyuanOCR osiągnął ogólny wynik 70.92. Rezultat ten przewyższa tradycyjne metody, takie jak PaddleOCR i BaiduOCR, a także ogólne modele VLM, w tym Gemini 2.5 Pro, Qwen3 VL 2B, Qwen3 VL 235B i Seed 1.6 Vision, pomimo znacznie mniejszej liczby parametrów.

Na OmniDocBench HunyuanOCR osiąga 94.10 punktu ogółem, z 94.73 dla formuł i 91.81 dla tabel. W wariancie Wild OmniDocBench, który drukuje i ponownie przechwytuje dokumenty w warunkach zagnieceń i zmian oświetlenia, model zdobywa 85.21 punktu ogółem. Na DocML, wielojęzycznym benchmarku parsowania obejmującym 14 języków poza chińskim i angielskim, osiąga 91.03 punktu, a artykuł donosi o wynikach na najwyższym poziomie we wszystkich 14 językach.

W ekstrakcji informacji i VQA HunyuanOCR osiąga 92.29% dokładności dla kart, 92.53% dla paragonów i 92.87% dla napisów wideo. Na OCRBench model uzyskuje 860 punktów, co jest wynikiem wyższym niż DeepSeek OCR w podobnej skali i bliskim większym ogólnym modelom VLM, takim jak Qwen3 VL 2B Instruct i Gemini 2.5 Pro. W tłumaczeniu tekstu z obrazów HunyuanOCR wykorzystuje benchmark DoTA i wewnętrzny zestaw bazujący na DocML. Model osiąga wysoki wynik COMET na DoTA dla tłumaczenia dokumentów z angielskiego na chiński i zajmuje pierwsze miejsce w Track 2.2 OCR-free Small Model konkursu ICDAR 2025 DIMT.

HunyuanOCR stanowi wyraźny sygnał, że wyspecjalizowane modele VLM do OCR dojrzewają, stając się praktyczną infrastrukturą, a nie tylko narzędziem do benchmarkingu. Tencent łączy architekturę end-to-end z 1 miliardem parametrów, natywnym transformatorem wizualnym, adaptacyjnym konektorem MLP i uczeniem wzmocnionym z weryfikowalnymi nagrodami, dostarczając pojedynczy model, który obejmuje wykrywanie, parsowanie, ekstrakcję informacji, VQA i tłumaczenie w ponad 100 językach. Osiąga przy tym wiodące wyniki na OCRBench dla modeli poniżej 3 miliardów parametrów i 94.1 na OmniDocBench. Podsumowując, HunyuanOCR oznacza ważny zwrot w kierunku kompaktowych, sterowanych instrukcjami silników OCR, które są realistyczne do wdrożeń produkcyjnych.

Architektura skrojona pod OCR

Proces trenowania i dane

Wzmocnienie uczenia z weryfikowalnymi nagrodami

Wyniki benchmarkingowe i konkurencja

Udostępnij:

Zobacz również

Sztuczna inteligencja uczy się przestrzegać norm dzięki połączeniu logiki i uczenia maszynowego

Wertykalne modele językowe: Nowy paradygmat w erze sztucznej inteligencji

FunctionGemma od Google: Nowy krok w stronę inteligentnych agentów brzegowych

Dodaj komentarz Anuluj pisanie odpowiedzi