Eteryczna biblioteka, dokumenty przekształcane przez AI, ze schematami "DocTags" i metamorfozą w obwód cyfrowy.

IBM wypuszcza Granite-Docling-258M: model AI do dokumentów gotowy do zastosowań korporacyjnych

2025-09-18 AI Sight

IBM wprowadził na rynek Granite-Docling-258M, model wizyjno-językowy typu open-source (Apache-2.0), stworzony specjalnie do kompleksowej konwersji dokumentów. Model ten koncentruje się na wiernym odwzorowaniu układu dokumentu – tabel, kodu, równań, list, podpisów i kolejności czytania – generując ustrukturyzowaną, czytelną maszynowo reprezentację, zamiast stratnego formatu Markdown.

Co nowego w porównaniu do SmolDocling?

Granite-Docling to następca modelu SmolDocling-256M, gotowy do zastosowań produkcyjnych. IBM zastąpił wcześniejszy szkielet modelem językowym Granite 165M i zmodernizował koder wizyjny do SigLIP2 (base, patch16-512), zachowując jednocześnie konektor w stylu Idefics3 (projektor pixel-shuffle). Wynikowy model ma 258 milionów parametrów i wykazuje wzrost dokładności w analizie układu, pełnostronicowym OCR, rozpoznawaniu kodu, równań i tabel.

IBM rozwiązał także problemy ze stabilnością, które obserwowano w wersji preview (np. pętle powtarzających się tokenów).

Architektura i proces uczenia

Szkielet: Stos pochodzący z Idefics3 z koderem wizyjnym SigLIP2 → konektor pixel-shuffle → LLM Granite 165M.
Platforma treningowa: nanoVLM (lekki, oparty na czystym PyTorch zestaw narzędzi do uczenia VLM).
Reprezentacja: Generuje DocTags, format znaczników stworzony przez IBM do jednoznacznego opisu struktury dokumentu (elementy + współrzędne + relacje), które narzędzia konwertują do formatów Markdown/HTML/JSON.
Obliczenia: Uczony na klastrze Blue Vela H100 firmy IBM.

Mierzalne ulepszenia

Granite-Docling-258M w porównaniu do wersji preview SmolDocling-256M (oceniane za pomocą docling-eval, LMMS-Eval i dedykowanych zbiorów danych):

Układ: MAP 0.27 vs. 0.23; F1 0.86 vs. 0.85.
Pełnostronicowy OCR: F1 0.84 vs. 0.80; mniejsza odległość edycji.
Rozpoznawanie kodu: F1 0.988 vs. 0.915; odległość edycji 0.013 vs. 0.114.
Rozpoznawanie równań: F1 0.968 vs. 0.947.
Rozpoznawanie tabel (FinTabNet @150dpi): TEDS-struktura 0.97 vs. 0.82; TEDS z zawartością 0.96 vs. 0.76.
Inne benchmarki: MMStar 0.30 vs. 0.17; OCRBench 500 vs. 338.
Stabilność: „Skuteczniej unika nieskończonych pętli” (poprawka zorientowana na produkcję).

Wsparcie wielojęzyczne

Granite-Docling dodaje eksperymentalne wsparcie dla języka japońskiego, arabskiego i chińskiego. IBM zaznacza, że jest to wczesny etap i językiem docelowym pozostaje angielski.

DocTags zmienia podejście do AI w dokumentach

Konwencjonalne potoki OCR-do-Markdown tracą informacje o strukturze i komplikują wyszukiwanie informacji. Granite-Docling generuje DocTags – kompaktową gramatykę strukturalną, która jest przyjazna dla LLM, a Docling konwertuje ją na Markdown/HTML/JSON. To zachowuje topologię tabeli, matematykę inline/floating, bloki kodu, podpisy i kolejność czytania z jawnymi współrzędnymi, poprawiając jakość indeksu i ułatwiając RAG i analizę.

Wnioskowanie i integracja

Integracja z Docling: CLI/SDK Docling automatycznie pobiera Granite-Docling i konwertuje pliki PDF/dokumenty biurowe/obrazy do wielu formatów. IBM pozycjonuje model jako komponent wewnątrz potoków Docling.
Środowiska uruchomieniowe: Działa z Transformers, vLLM, ONNX i MLX; dedykowana kompilacja MLX jest zoptymalizowana pod kątem Apple Silicon.
Licencja: Apache-2.0.

Dlaczego Granite-Docling?

W korporacyjnym AI małe VLM, które zachowują strukturę, zmniejszają koszt wnioskowania i złożoność potoku. Ulepszenia w stosunku do SmolDocling – w TEDS dla tabel, F1 dla kodu/równań i ograniczenie braku stabilności – sprawiają, że jest to praktyczna aktualizacja w zastosowaniach produkcyjnych.

Granite-Docling-258M oznacza postęp w dziedzinie kompaktowego AI dokumentów, które zachowuje strukturę. Dzięki połączeniu szkieletu Granite firmy IBM, kodera wizyjnego SigLIP2 i platformy nanoVLM, zapewnia wydajność w tabelach, równaniach, kodzie i tekście wielojęzycznym – a wszystko to przy zachowaniu niewielkich rozmiarów i licencji open-source (Apache 2.0.)

Co nowego w porównaniu do SmolDocling?

Architektura i proces uczenia

Mierzalne ulepszenia

Wsparcie wielojęzyczne

DocTags zmienia podejście do AI w dokumentach

Wnioskowanie i integracja

Dlaczego Granite-Docling?

Udostępnij:

Zobacz również

GLM-4.5: Chiński gracz redefiniuje możliwości otwartych modeli agentowych

Google Photos na Androidzie: edycja zdjęć głosowo dzięki AI Gemini

WINGS: Nowe podejście do walki z „zapominaniem tekstowym” w multimodalnych modelach językowych

Dodaj komentarz Anuluj pisanie odpowiedzi