dots.ocr: nowy model AI do wielojęzykowego parsowania dokumentów z wynikami lepszymi niż Google
Na scenie sztucznej inteligencji pojawił się nowy gracz – dots.ocr, otwarty model językowy o imponującej liczbie 1,7 miliarda parametrów. Zaprojektowany do wielojęzykowego parsowania dokumentów i optycznego rozpoznawania znaków (OCR), model łączy w sobie detekcję układu i rozpoznawanie treści w ramach jednej architektury.
To podejście odróżnia go od tradycyjnych systemów, które często wymagają oddzielnych potoków przetwarzania dla każdego z tych zadań. dots.ocr obsługuje ponad 100 języków i radzi sobie z różnorodnymi dokumentami – od tych ustrukturyzowanych, po całkowicie niestrukturalne.
Architektura i możliwości
Kluczową cechą dots.ocr jest jego unifikacja. Model łączy detekcję układu i rozpoznawanie treści w jednej sieci neuronowej opartej na architekturze transformera. Eliminuje to potrzebę stosowania oddzielnych systemów, a użytkownicy mogą przełączać się między zadaniami poprzez manipulowanie podpowiedziami (ang. prompts) na wejściu.
Model akceptuje pliki graficzne i dokumenty PDF, oferując opcje wstępnego przetwarzania, takie jak fitz_preprocess, optymalizujące jakość w przypadku plików o niskiej rozdzielczości lub gęstych, wielostronicowych dokumentów.
Wielojęzyczność i ekstrakcja danych
dots.ocr został wytrenowany na zbiorach danych obejmujących ponad 100 języków, w tym popularne języki świata, jak i te mniej powszechne. Model potrafi wyodrębniać tekst, dane tabelaryczne, formuły matematyczne (w LaTeX) i zachowuje kolejność czytania w dokumencie. Wyniki mogą być generowane w formatach JSON, Markdown i HTML, w zależności od układu i typu treści.
Benchmarki i porównania
Twórcy dots.ocr poddali go rygorystycznym testom porównawczym z innymi systemami AI do przetwarzania dokumentów. Wyniki wskazują, że model osiąga lepsze rezultaty niż Gemini 2.5 Pro w zakresie dokładności parsowania tabel. Ponadto, charakteryzuje się mniejszą odległością edycji tekstu, co sugeruje wyższą precyzję w rozpoznawaniu tekstu.
W rozpoznawaniu wzorów i rekonstrukcji struktury dokumentów dots.ocr dorównuje lub przewyższa wiodące modele.
Wdrożenie i integracja
Model został udostępniony na licencji MIT, co oznacza, że jego kod źródłowy, dokumentacja i wstępnie wytrenowane modele są dostępne na GitHubie. Repozytorium zawiera instrukcje instalacji z użyciem pip, Conda i Dockera.
dots.ocr obsługuje elastyczną konfigurację zadań za pomocą szablonów podpowiedzi. Może być używany interaktywnie lub w zautomatyzowanych potokach przetwarzania wsadowego dokumentów. Wyodrębnione wyniki są dostarczane w formacie JSON, z opcjami Markdown i HTML, a skrypty wizualizacyjne ułatwiają inspekcję wykrytych układów.
Podsumowanie
dots.ocr to obiecujące narzędzie do precyzyjnego, wielojęzykowego parsowania dokumentów. Połączenie detekcji układu i rozpoznawania treści w jednym modelu open-source czyni go atrakcyjnym rozwiązaniem dla scenariuszy wymagających analizy dokumentów i ekstrakcji informacji w środowiskach o ograniczonych zasobach. Jest to szczególnie interesujące w kontekście automatyzacji procesów biznesowych i digitalizacji zasobów archiwalnych.
