IBM wypuszcza Granite-Docling-258M: model AI do dokumentów gotowy do zastosowań korporacyjnych
IBM wprowadził na rynek Granite-Docling-258M, model wizyjno-językowy typu open-source (Apache-2.0), stworzony specjalnie do kompleksowej konwersji dokumentów. Model ten koncentruje się na wiernym odwzorowaniu układu dokumentu – tabel, kodu, równań, list, podpisów i kolejności czytania – generując ustrukturyzowaną, czytelną maszynowo reprezentację, zamiast stratnego formatu Markdown.
Co nowego w porównaniu do SmolDocling?
Granite-Docling to następca modelu SmolDocling-256M, gotowy do zastosowań produkcyjnych. IBM zastąpił wcześniejszy szkielet modelem językowym Granite 165M i zmodernizował koder wizyjny do SigLIP2 (base, patch16-512), zachowując jednocześnie konektor w stylu Idefics3 (projektor pixel-shuffle). Wynikowy model ma 258 milionów parametrów i wykazuje wzrost dokładności w analizie układu, pełnostronicowym OCR, rozpoznawaniu kodu, równań i tabel.
IBM rozwiązał także problemy ze stabilnością, które obserwowano w wersji preview (np. pętle powtarzających się tokenów).
Architektura i proces uczenia
- Szkielet: Stos pochodzący z Idefics3 z koderem wizyjnym SigLIP2 → konektor pixel-shuffle → LLM Granite 165M.
- Platforma treningowa: nanoVLM (lekki, oparty na czystym PyTorch zestaw narzędzi do uczenia VLM).
- Reprezentacja: Generuje DocTags, format znaczników stworzony przez IBM do jednoznacznego opisu struktury dokumentu (elementy + współrzędne + relacje), które narzędzia konwertują do formatów Markdown/HTML/JSON.
- Obliczenia: Uczony na klastrze Blue Vela H100 firmy IBM.
Mierzalne ulepszenia
Granite-Docling-258M w porównaniu do wersji preview SmolDocling-256M (oceniane za pomocą docling-eval, LMMS-Eval i dedykowanych zbiorów danych):
- Układ: MAP 0.27 vs. 0.23; F1 0.86 vs. 0.85.
- Pełnostronicowy OCR: F1 0.84 vs. 0.80; mniejsza odległość edycji.
- Rozpoznawanie kodu: F1 0.988 vs. 0.915; odległość edycji 0.013 vs. 0.114.
- Rozpoznawanie równań: F1 0.968 vs. 0.947.
- Rozpoznawanie tabel (FinTabNet @150dpi): TEDS-struktura 0.97 vs. 0.82; TEDS z zawartością 0.96 vs. 0.76.
- Inne benchmarki: MMStar 0.30 vs. 0.17; OCRBench 500 vs. 338.
- Stabilność: „Skuteczniej unika nieskończonych pętli” (poprawka zorientowana na produkcję).
Wsparcie wielojęzyczne
Granite-Docling dodaje eksperymentalne wsparcie dla języka japońskiego, arabskiego i chińskiego. IBM zaznacza, że jest to wczesny etap i językiem docelowym pozostaje angielski.
DocTags zmienia podejście do AI w dokumentach
Konwencjonalne potoki OCR-do-Markdown tracą informacje o strukturze i komplikują wyszukiwanie informacji. Granite-Docling generuje DocTags – kompaktową gramatykę strukturalną, która jest przyjazna dla LLM, a Docling konwertuje ją na Markdown/HTML/JSON. To zachowuje topologię tabeli, matematykę inline/floating, bloki kodu, podpisy i kolejność czytania z jawnymi współrzędnymi, poprawiając jakość indeksu i ułatwiając RAG i analizę.
Wnioskowanie i integracja
- Integracja z Docling: CLI/SDK Docling automatycznie pobiera Granite-Docling i konwertuje pliki PDF/dokumenty biurowe/obrazy do wielu formatów. IBM pozycjonuje model jako komponent wewnątrz potoków Docling.
- Środowiska uruchomieniowe: Działa z Transformers, vLLM, ONNX i MLX; dedykowana kompilacja MLX jest zoptymalizowana pod kątem Apple Silicon.
- Licencja: Apache-2.0.
Dlaczego Granite-Docling?
W korporacyjnym AI małe VLM, które zachowują strukturę, zmniejszają koszt wnioskowania i złożoność potoku. Ulepszenia w stosunku do SmolDocling – w TEDS dla tabel, F1 dla kodu/równań i ograniczenie braku stabilności – sprawiają, że jest to praktyczna aktualizacja w zastosowaniach produkcyjnych.
Granite-Docling-258M oznacza postęp w dziedzinie kompaktowego AI dokumentów, które zachowuje strukturę. Dzięki połączeniu szkieletu Granite firmy IBM, kodera wizyjnego SigLIP2 i platformy nanoVLM, zapewnia wydajność w tabelach, równaniach, kodzie i tekście wielojęzycznym – a wszystko to przy zachowaniu niewielkich rozmiarów i licencji open-source (Apache 2.0.)
