IBM представила Granite-Docling-258M — компактную открытую модель Document AI с сохранением структуры

Что умеет Granite-Docling-258M

Granite-Docling-258M — это открытая модель (Apache-2.0) vision-language от IBM, созданная для сквозной конвертации документов с акцентом на сохранение макета. Вместо потери структуры при преобразовании в Markdown модель выдает DocTags — структурное, машинно-читаемое представление с элементами, координатами и связями, которое конвертируется в Markdown, HTML или JSON.

Отличия от SmolDocling

Granite-Docling заменяет SmolDocling-256M как продуктовый релиз. IBM обновила бэкенд до Granite 165M LLM и улучшила визуальный энкодер до SigLIP2 (base, patch16-512). Связка между зрением и языком осталась в виде pixel-shuffle проектора в стиле Idefics3. Итоговая модель имеет 258 миллионов параметров и показывает стабильный прирост точности в задачах анализа разметки, OCR на страницах, распознавания кода и уравнений, а также таблиц. Также устранены нестабильные состояния, наблюдавшиеся в превью, например повторяющиеся токен-петли.

Архитектура и пайплайн обучения

Бэкенд: стек, производный от Idefics3, с SigLIP2 визуальным энкодером -> pixel-shuffle коннектор -> Granite 165M LLM.
Фреймворк обучения: nanoVLM, легковесный PyTorch-инструментарий для тренировки VLM.
Представление: DocTags — собственная разметка IBM для однозначной структуры документа (элементы + координаты + связи).
Вычислительные ресурсы: обучение на кластере Blue Vela с H100 от IBM.

DocTags сохраняют сложную структуру документов: топологию таблиц, встроенную и плавающую математику, блоки кода, подписи и порядок чтения с явными координатами. Это повышает качество индексации и обеспечивает лучшее заземление для RAG и аналитики.

Оценка и улучшения

Сравнение Granite-Docling-258M с превью SmolDocling-256M по наборам docling-eval, LMMS-Eval и специализированным датасетам показало:

Разметка: MAP 0.27 vs. 0.23; F1 0.86 vs. 0.85.
OCR полной страницы: F1 0.84 vs. 0.80; меньшая редакционная дистанция.
Распознавание кода: F1 0.988 vs. 0.915; edit distance 0.013 vs. 0.114.
Распознавание уравнений: F1 0.968 vs. 0.947.
Таблицы (FinTabNet @150dpi): TEDS-structure 0.97 vs. 0.82; TEDS с содержимым 0.96 vs. 0.76.
Прочие бенчмарки: MMStar 0.30 vs. 0.17; OCRBench 500 vs. 338.
Стабильность: исправления уменьшают риск бесконечных петель и повторов токенов.

Эти метрики демонстрируют существенные улучшения в топологии таблиц, точности распознавания кода и уравнений, а также общей надежности OCR.

Мультиязычная поддержка

Granite-Docling добавляет экспериментальную поддержку японского, арабского и китайского языков. IBM отмечает, что эти возможности находятся на ранней стадии, а основным целевым языком остается английский.

Как DocTags меняют пайплайн Document AI

Традиционные конвейеры OCR->Markdown теряют структурную информацию, важную для последующей обработки. DocTags сохраняют структуру и координаты документа, что позволяет более точно конвертировать содержимое и улучшает заземление для RAG. Инструменты конвертации могут восстановить таблицы, математические выражения, блоки кода и порядок чтения без потерь метаданных.

Инференс, рантаймы и интеграция

IBM рекомендует использовать Docling Integration (CLI/SDK) для автоматического подтягивания Granite-Docling и конвертации PDF, офисных документов и изображений в разные форматы. Поддерживаются рантаймы Transformers, vLLM, ONNX и MLX; MLX-сборка оптимизирована для Apple Silicon. На Hugging Face доступен интерактивный демо-спейс (ZeroGPU). Лицензия модели — Apache-2.0.

Почему это важно для бизнеса

Для корпоративных решений Document AI компактная модель, сохраняющая структуру, упрощает пайплайны и снижает затраты на инференс. Granite-Docling объединяет несколько специализированных компонентов в один, выдавая более богатое промежуточное представление, что повышает качество конверсии и релевантность поиска. Измеренные улучшения и стабильность делают модель практичной заменой SmolDocling для продакшен-воркфлоу.