LLMNarzędziaOpen Source

IBM wypuszcza Granite-Docling-258M: model AI do dokumentów gotowy do zastosowań korporacyjnych

IBM wprowadził na rynek Granite-Docling-258M, model wizyjno-językowy typu open-source (Apache-2.0), stworzony specjalnie do kompleksowej konwersji dokumentów. Model ten koncentruje się na wiernym odwzorowaniu układu dokumentu – tabel, kodu, równań, list, podpisów i kolejności czytania – generując ustrukturyzowaną, czytelną maszynowo reprezentację, zamiast stratnego formatu Markdown.

Co nowego w porównaniu do SmolDocling?

Granite-Docling to następca modelu SmolDocling-256M, gotowy do zastosowań produkcyjnych. IBM zastąpił wcześniejszy szkielet modelem językowym Granite 165M i zmodernizował koder wizyjny do SigLIP2 (base, patch16-512), zachowując jednocześnie konektor w stylu Idefics3 (projektor pixel-shuffle). Wynikowy model ma 258 milionów parametrów i wykazuje wzrost dokładności w analizie układu, pełnostronicowym OCR, rozpoznawaniu kodu, równań i tabel.

IBM rozwiązał także problemy ze stabilnością, które obserwowano w wersji preview (np. pętle powtarzających się tokenów).

Architektura i proces uczenia

  • Szkielet: Stos pochodzący z Idefics3 z koderem wizyjnym SigLIP2 → konektor pixel-shuffle → LLM Granite 165M.
  • Platforma treningowa: nanoVLM (lekki, oparty na czystym PyTorch zestaw narzędzi do uczenia VLM).
  • Reprezentacja: Generuje DocTags, format znaczników stworzony przez IBM do jednoznacznego opisu struktury dokumentu (elementy + współrzędne + relacje), które narzędzia konwertują do formatów Markdown/HTML/JSON.
  • Obliczenia: Uczony na klastrze Blue Vela H100 firmy IBM.

Mierzalne ulepszenia

Granite-Docling-258M w porównaniu do wersji preview SmolDocling-256M (oceniane za pomocą docling-eval, LMMS-Eval i dedykowanych zbiorów danych):

  • Układ: MAP 0.27 vs. 0.23; F1 0.86 vs. 0.85.
  • Pełnostronicowy OCR: F1 0.84 vs. 0.80; mniejsza odległość edycji.
  • Rozpoznawanie kodu: F1 0.988 vs. 0.915; odległość edycji 0.013 vs. 0.114.
  • Rozpoznawanie równań: F1 0.968 vs. 0.947.
  • Rozpoznawanie tabel (FinTabNet @150dpi): TEDS-struktura 0.97 vs. 0.82; TEDS z zawartością 0.96 vs. 0.76.
  • Inne benchmarki: MMStar 0.30 vs. 0.17; OCRBench 500 vs. 338.
  • Stabilność: „Skuteczniej unika nieskończonych pętli” (poprawka zorientowana na produkcję).

Wsparcie wielojęzyczne

Granite-Docling dodaje eksperymentalne wsparcie dla języka japońskiego, arabskiego i chińskiego. IBM zaznacza, że jest to wczesny etap i językiem docelowym pozostaje angielski.

DocTags zmienia podejście do AI w dokumentach

Konwencjonalne potoki OCR-do-Markdown tracą informacje o strukturze i komplikują wyszukiwanie informacji. Granite-Docling generuje DocTags – kompaktową gramatykę strukturalną, która jest przyjazna dla LLM, a Docling konwertuje ją na Markdown/HTML/JSON. To zachowuje topologię tabeli, matematykę inline/floating, bloki kodu, podpisy i kolejność czytania z jawnymi współrzędnymi, poprawiając jakość indeksu i ułatwiając RAG i analizę.

Wnioskowanie i integracja

  • Integracja z Docling: CLI/SDK Docling automatycznie pobiera Granite-Docling i konwertuje pliki PDF/dokumenty biurowe/obrazy do wielu formatów. IBM pozycjonuje model jako komponent wewnątrz potoków Docling.
  • Środowiska uruchomieniowe: Działa z Transformers, vLLM, ONNX i MLX; dedykowana kompilacja MLX jest zoptymalizowana pod kątem Apple Silicon.
  • Licencja: Apache-2.0.

Dlaczego Granite-Docling?

W korporacyjnym AI małe VLM, które zachowują strukturę, zmniejszają koszt wnioskowania i złożoność potoku. Ulepszenia w stosunku do SmolDocling – w TEDS dla tabel, F1 dla kodu/równań i ograniczenie braku stabilności – sprawiają, że jest to praktyczna aktualizacja w zastosowaniach produkcyjnych.

Granite-Docling-258M oznacza postęp w dziedzinie kompaktowego AI dokumentów, które zachowuje strukturę. Dzięki połączeniu szkieletu Granite firmy IBM, kodera wizyjnego SigLIP2 i platformy nanoVLM, zapewnia wydajność w tabelach, równaniach, kodzie i tekście wielojęzycznym – a wszystko to przy zachowaniu niewielkich rozmiarów i licencji open-source (Apache 2.0.)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *