IBM представила Granite-Docling-258M — компактную открытую модель Document AI с сохранением структуры

Что умеет Granite-Docling-258M

Granite-Docling-258M — это открытая модель (Apache-2.0) vision-language от IBM, созданная для сквозной конвертации документов с акцентом на сохранение макета. Вместо потери структуры при преобразовании в Markdown модель выдает DocTags — структурное, машинно-читаемое представление с элементами, координатами и связями, которое конвертируется в Markdown, HTML или JSON.

Отличия от SmolDocling

Granite-Docling заменяет SmolDocling-256M как продуктовый релиз. IBM обновила бэкенд до Granite 165M LLM и улучшила визуальный энкодер до SigLIP2 (base, patch16-512). Связка между зрением и языком осталась в виде pixel-shuffle проектора в стиле Idefics3. Итоговая модель имеет 258 миллионов параметров и показывает стабильный прирост точности в задачах анализа разметки, OCR на страницах, распознавания кода и уравнений, а также таблиц. Также устранены нестабильные состояния, наблюдавшиеся в превью, например повторяющиеся токен-петли.

Архитектура и пайплайн обучения

DocTags сохраняют сложную структуру документов: топологию таблиц, встроенную и плавающую математику, блоки кода, подписи и порядок чтения с явными координатами. Это повышает качество индексации и обеспечивает лучшее заземление для RAG и аналитики.

Оценка и улучшения

Сравнение Granite-Docling-258M с превью SmolDocling-256M по наборам docling-eval, LMMS-Eval и специализированным датасетам показало:

Эти метрики демонстрируют существенные улучшения в топологии таблиц, точности распознавания кода и уравнений, а также общей надежности OCR.

Мультиязычная поддержка

Granite-Docling добавляет экспериментальную поддержку японского, арабского и китайского языков. IBM отмечает, что эти возможности находятся на ранней стадии, а основным целевым языком остается английский.

Как DocTags меняют пайплайн Document AI

Традиционные конвейеры OCR->Markdown теряют структурную информацию, важную для последующей обработки. DocTags сохраняют структуру и координаты документа, что позволяет более точно конвертировать содержимое и улучшает заземление для RAG. Инструменты конвертации могут восстановить таблицы, математические выражения, блоки кода и порядок чтения без потерь метаданных.

Инференс, рантаймы и интеграция

IBM рекомендует использовать Docling Integration (CLI/SDK) для автоматического подтягивания Granite-Docling и конвертации PDF, офисных документов и изображений в разные форматы. Поддерживаются рантаймы Transformers, vLLM, ONNX и MLX; MLX-сборка оптимизирована для Apple Silicon. На Hugging Face доступен интерактивный демо-спейс (ZeroGPU). Лицензия модели — Apache-2.0.

Почему это важно для бизнеса

Для корпоративных решений Document AI компактная модель, сохраняющая структуру, упрощает пайплайны и снижает затраты на инференс. Granite-Docling объединяет несколько специализированных компонентов в один, выдавая более богатое промежуточное представление, что повышает качество конверсии и релевантность поиска. Измеренные улучшения и стабильность делают модель практичной заменой SmolDocling для продакшен-воркфлоу.