LLMNarzędziaObraz

DeepSeek OCR 2: Nowa era odczytywania dokumentów z 80-procentową redukcją tokenów

Koniec z liniowym skanowaniem: Jak AI uczy się „patrzeć”

Przez lata modele wizyjne (Vision-Language Models) analizowały obrazy w sposób schematyczny – od lewego górnego rogu do prawego dolnego, niemal jak tradycyjny skaner biurowy. DeepSeek OCR 2 zrywa z tym paradygmatem, wprowadzając architekturę DeepEncoder V2. Zamiast sztywnego podziału na siatkę, nowy system reorganizuje informacje wizualne na podstawie ich znaczenia i kontekstu, co lepiej oddaje sposób, w jaki ludzkie oko śledzi np. spiralne kształty czy skomplikowany układ kolumn w dokumentach.

Sercem nowej technologii jest odejście od powszechnie stosowanego komponentu CLIP na rzecz kompaktowej architektury opartej na modelu językowym Qwen2 0.5B od Alibaby. Wykorzystuje ona tzw. causal flow tokens – wyuczalne tokeny zapytań, które mają dostęp do pełnej informacji o obrazie i wcześniejszych operacjach. Dzięki temu proces rozpoznawania treści staje się dwuetapowy: najpierw enkoder porządkuje dane wizualne, a dopiero potem dekoder LLM wykonuje nad nimi wnioskowanie. Co kluczowe, do dekodera trafia jedynie przeselekcjonowana sekwencja tokenów, a nie surowy zestaw danych graficznych.

Efektywność mierzona w tokenach

Największe wrażenie robią wskaźniki optymalizacji. DeepSeek OCR 2 wymaga zaledwie od 256 do 1120 tokenów wizualnych na obraz. Dla porównania, konkurencyjne systemy często konsumują ich od 6 do 7 tysięcy. Ta oszczędność nie odbywa się kosztem jakości – w benchmarku OmniDocBench model osiągnął wynik 91,09%, wyprzedzając swojego poprzednika o blisko 4 punkty procentowe. W bezpośrednim starciu przy parsowaniu dokumentów nowy model DeepSeek pokonał Gemini 3 Pro (przy zachowaniu zbliżonego budżetu tokenów), wykazując się lepszym zrozumieniem właściwej kolejności czytania tekstu.

W praktycznym zastosowaniu, np. przy przetwarzaniu ogromnych zbiorów danych PDF na potrzeby trenowania innych modeli AI, system wykazuje się większą stabilnością. Współczynnik powtarzalności (redundancji) tekstu spadł z 3,69% do 2,88%, co przekłada się na czystsze i bardziej użyteczne zestawy danych. DeepSeek deklaruje, że ich infrastruktura jest w stanie przetworzyć do 33 milionów stron dziennie.

Słabości i wizja unifikacji

Mimo imponujących wyników, DeepSeek OCR 2 nie jest narzędziem pozbawionym wad. Paradoksalnie, model radzi sobie gorzej niż pierwsza wersja przy analizie gazet. Badacze przyznają, że drastyczne obniżenie limitu tokenów może być barierą przy gęsto zadrukowanych stronach dzienników, a stosunkowo mały zbiór treningowy w tej kategorii (250 tys. stron) nie pozwolił na pełną optymalizację.

Długofalowy cel twórców wykracza jednak poza sam OCR. Architektura DeepEncoder V2 jest postrzegana jako fundament pod zunifikowane enkodery multimodalne. Wykorzystanie tej samej ramy bazowej do jednoczesnego przetwarzania tekstu, mowy i obrazu, gdzie zmieniać będą się jedynie tokeny zapytań specyficzne dla danej modalności, to kierunek, w którym zmierza chiński gigant. Kod oraz wagi modelu zostały udostępnione publicznie na platformach GitHub i Hugging Face, co może znacząco przyspieszyć adopcję tej technologii w komercyjnych rozwiązaniach do analizy dokumentów.