Mistral AI podnosi poprzeczkę: OCR 3 z precyzją odczytuje trudne dokumenty i manuskrypty
W obliczu rosnącego zapotrzebowania na skuteczną digitalizację i analizę dokumentów, Mistral AI przedstawia Mistral OCR 3, swój najnowszy system optycznego rozpoznawania znaków. Rozwiązanie to stanowi kluczowy element pakietu Document AI, mającego na celu kompleksowe przetwarzanie i ekstrakcję danych ze złożonych źródeł, takich jak pliki PDF i skany. Nowy model oznaczony jako mistral-ocr-2512 wyróżnia się zdolnością do precyzyjnego zachowania struktury dokumentu, nawet przy rozpoznawaniu tekstu i obrazów przeplatanych ze sobą.
Zdolność do interpretacji w przedsiębiorstwie: nowe standardy OCR
Mistral OCR 3 został zaprojektowany z myślą o typowych wyzwaniach, przed którymi stają przedsiębiorstwa w zakresie przetwarzania dokumentów. Optymalizacja obejmuje formularze, zeskanowane dokumenty, złożone tabele, a także pismo odręczne. Ocena, przeprowadzona na wewnętrznych benchmarkach odzwierciedlających rzeczywiste scenariusze biznesowe, wykazała 74% wzrost skuteczności w porównaniu do Mistral OCR 2. To oznacza znaczący postęp w precyzji rozpoznawania w kluczowych kategoriach dokumentów.
Model generuje wyniki w formacie Markdown, jednocześnie zachowując oryginalny układ dokumentu. W przypadku wykrycia tabel, możliwe jest wzbogacenie danych wyjściowych o reprezentacje HTML. Takie podejście dostarcza systemom analitycznym zarówno treści, jak i niezbędnych informacji strukturalnych, co jest kluczowe dla efektywnych procesów wyszukiwania, analizy danych i automatyzacji zadań.
Rola w ekosystemie Mistral Document AI
OCR 3 jest integralną częścią Mistral Document AI, platformy łączącej technologię OCR z ekstrakcją danych strukturalnych i funkcjonalnością Q&A dla dokumentów. Nowa usługa zasila również Document AI Playground w Mistral AI Studio, oferując użytkownikom możliwość przesyłania plików PDF lub obrazów i otrzymywania czystego tekstu lub ustrukturyzowanych danych JSON bez konieczności pisania kodu. Ta sama podstawowa infrastruktura OCR jest dostępna poprzez publiczne API, co umożliwia płynne przejście od eksploracji do wdrożeń produkcyjnych.
Wszechstronność wejść i spójność wyjść
Procesor OCR akceptuje różnorodne formaty dokumentów za pośrednictwem pojedynczego API. Pole dokumentu może wskazywać na adresy URL plików PDF, PPTX, DOCX, a także JPG, PNG czy AVIF. Możliwe jest również przesyłanie plików PDF lub obrazów zakodowanych w Base64 bezpośrednio do systemu. Odpowiedź z systemu to obiekt JSON zawierający tablicę stron. Każda strona zawiera indeks, ciąg znaków Markdown, listę obrazów, listę tabel (gdy włączono formatowanie HTML), wykryte hiperłącza, opcjonalne pola nagłówka i stopki, a także obiekt wymiarów strony. Dodatkowo dostępne są pola document_annotation dla adnotacji strukturalnych i usage_info dla informacji rozliczeniowych. Model inteligentnie wykorzystuje symboliczne miejsca zastępcze w Markdownie dla obrazów i tabel, co ułatwia późniejszą rekonstrukcję dokumentu.
Znaczące usprawnienia w porównaniu do OCR 2
Mistral OCR 3 wprowadza szereg konkretnych udoskonaleń względem swojego poprzednika. Wśród kluczowych obszarów wymienić można:
- Pismo odręczne: Znacznie zwiększona dokładność w interpretacji pisma kursywnego, adnotacji o mieszanej zawartości oraz tekstu odręcznego naniesionego na wydrukowane szablony.
- Formularze: Lepsze wykrywanie pól, etykiet i wpisów odręcznych w gęstych układach, takich jak faktury, paragony, formularze zgodności i dokumenty urzędowe.
- Dokumenty zeskanowane i złożone: Wyższa odporność na artefakty kompresji, skosy, zniekształcenia, niską rozdzielczość DPI i szumy tła na zeskanowanych stronach.
- Złożone tabele: Usprawniona rekonstrukcja struktur tabel z nagłówkami, scalonymi komórkami, wielowierszowymi blokami i hierarchiami kolumn. Model może zwracać tabele HTML z poprawnymi znacznikami
colspanirowspan, co gwarantuje zachowanie układu.
Koszty i przetwarzanie wsadowe
Cennik Mistral OCR 3 wynosi 2 USD za 1000 stron dla standardowego OCR i 3 USD za 1000 stron z adnotacjami strukturalnymi. Firma oferuje również znaczącą zniżkę przy wykorzystaniu usługi poprzez Batch Inference API: przetwarzanie wsadowe obniża efektywną cenę standardowego OCR do 1 USD za 1000 stron. Model integruje się również z funkcjami takimi jak adnotacje i ekstrakcja pól ograniczających (bounding box), co umożliwia deweloperom przypisywanie schematów do regionów dokumentu i uzyskiwanie współrzędnych elementów tekstu i innych, co jest cenne przy mapowaniu treści do systemów końcowych lub nakładek interfejsu użytkownika.
