LLMNarzędzia

NuMarkdown-8B-Thinking: Nowe podejście do cyfryzacji dokumentów od NuMind AI

W świecie, gdzie cyfrowa transformacja nabiera tempa, a efektywne zarządzanie informacją staje się kluczowe, NuMind AI wprowadza innowacyjne rozwiązanie. Firma ogłosiła premierę NuMarkdown-8B-Thinking, wizualno-językowego modelu rozumowania (VLM), dostępnego na licencji MIT. To narzędzie ma zrewolucjonizować sposób przetwarzania i strukturyzowania złożonych dokumentów.

Tradycyjne systemy optycznego rozpoznawania znaków (OCR) koncentrują się wyłącznie na ekstrakcji tekstu, często ignorując kontekst, układ i formatowanie dokumentu. NuMarkdown-8B-Thinking podchodzi do problemu inaczej: zanim wygeneruje sformatowany plik Markdown, model analizuje układ, strukturę i formatowanie źródłowego dokumentu. To pierwsze tego typu rozwiązanie VLM, zaprojektowane specjalnie do konwersji plików PDF, zeskanowanych dokumentów i arkuszy kalkulacyjnych w czytelne, strukturyzowane pliki Markdown. Taki format jest idealnym rozwiązaniem dla systemów RAG (Retrieval-Augmented Generation), baz wiedzy opartych na AI oraz archiwizacji dokumentów na dużą skalę.

Myślenie przed pisaniem, czyli rewolucja w OCR

Model NuMarkdown-8B-Thinking wprowadza podejście nazwane „rozumowaniem”, czyli budowanie wewnętrznego modelu wyjściowego, zanim nastąpi ekstrakcja tekstu. Zamiast bezpośrednio renderować wyodrębniony tekst, generuje on tak zwane „tokeny myślowe” – wewnętrzne kroki rozumowania, które pomagają mu zrozumieć układ dokumentu przed wygenerowaniem ostatecznego wyniku. Ta zdolność pozwala radzić sobie z formatami i strukturami, które stanowią wyzwanie dla większości konwencjonalnych, a nawet opartych na AI systemów OCR. Mowa tu o wielokolumnowych układach o złożonej kolejności czytania, tabelach ze scalonymi, zagnieżdżonymi lub nieregularnymi komórkami, a także o zróżnicowanych elementach wizualnych, takich jak obrazy, ozdobne nagłówki czy znaki wodne. Co więcej, model ma radzić sobie z historycznymi lub zdegradowanymi skanami, gdzie konieczne jest wnioskowanie o układzie dokumentu. Liczba generowanych tokenów myślowych jest zmienna – od 20% do 500% długości końcowego pliku Markdown – co świadczy o stopniu „przemyślenia” dokumentu przed jego „zapisaniem” w formie Markdown.

Architektura i proces szkolenia

NuMarkdown-8B-Thinking to precyzyjnie dostrojona wersja modelu Qwen 2.5-VL-7B od Alibaba, który jest jednym z najsilniejszych dostępnych otwartych modeli multimodalnych. Proces treningu składał się z dwóch kluczowych faz. Pierwsza to nadzorowane dostrajanie (SFT) na syntetycznych próbkach dokumentów, gdzie każdy przykład zawierał surowy dokument wejściowy, pośrednie kroki rozumowania (analizę układu, wnioskowanie o strukturze) oraz finalną reprezentację w Markdown. Druga faza to uczenie wzmacniające z użyciem GRPO, wykorzystujące nagrody ukierunkowane na układ, co sprzyjało dokładnemu rekonstruowaniu formatowania dokumentu i relacji przestrzennych. Ten dwuetapowy proces nadał NuMarkdown-8B-Thinking zdolność do utrzymywania wysokiej dokładności nawet w przypadku wymagających układów, które zazwyczaj wymagają ludzkiej oceny.

Lepszy od konkurencji? Wyniki benchmarków

W niezależnych ocenach i testach użytkowników NuMarkdown-8B-Thinking wykazał się najwyższą jakością rozumowania w zadaniach konwersji OCR do Markdown. Według twórców, model przewyższa ogólne modele, takie jak GPT-4o, oraz wyspecjalizowane modele OCR, w tym OCRFlux. Co więcej, jest konkurencyjny dla dużych, zamkniętych rozwiązań rozumiejących, jak Gemini 2.5, ustępując jedynie elitarnym modelom w rankingach użytkowników. Użytkownicy szczególnie podkreślają jego zdolność do poprawnego wnioskowania o kolejności czytania w nieliniowych układach, zachowania skomplikowanego formatowania tabel oraz generowania czyściutkiego, przyjaznego dla parsowania Markdown do systemów RAG, bez konieczności dalszej obróbki.

Przykładowa strona zeskanowanego raportu finansowego, zawierająca wielopoziomowe nagłówki, paski boczne, wiele kolumn, tabelę finansową ze scalonymi komórkami i nierównym odstępem między wierszami oraz stopkę z zastrzeżeniami prawnymi, stanowi doskonały przykład możliwości modelu. NuMarkdown-8B-Thinking najpierw generuje tokeny rozumowania, które nakreślają strukturę dokumentu, a następnie wyjściowy plik Markdown odzwierciedlający zarówno treść, jak i układ. Ta warstwa przejrzystego rozumowania sprawia, że decyzje modelu są weryfikowalne, co jest istotnym atutem w kontekstach korporacyjnych, prawnych czy archiwalnych.

Dostępność i znaczenie dla biznesu

NuMarkdown-8B-Thinking jest dostępny dla badaczy, deweloperów i inżynierów AI. Model można testować i integrować bezpośrednio przez Hugging Face. Wagi modelu i skwantyzowane wersje GGUF są dostępne do wdrożenia na procesorach CPU/GPU. Jest również kompatybilny z API w stylu OpenAI oraz Hugging Face Transformers, co umożliwia szybką integrację z istniejącymi potokami danych. Licencja MIT gwarantuje pełną swobodę w projektach komercyjnych, akademickich i osobistych, eliminując blokady dostawców czy kosztowne bramki API.

Dla branż, które opierają się na dokładnej cyfryzacji dokumentów — finansów, prawa, opieki zdrowotnej, archiwów rządowych — wierność układu jest równie ważna, jak dokładność tekstowa. Większość systemów OCR traktuje układ jako dodatek; NuMarkdown-8B-Thinking traktuje go jako problem wymagający rozumowania. Łącząc open source, rozumienie układu i zoptymalizowany pod kątem RAG format Markdown, NuMind AI wprowadza transparentną, weryfikowalną i wysokiej wydajności alternatywę dla dotychczasowych, autorskich rozwiązań AI do przetwarzania dokumentów.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *