NuMind представляет NuMarkdown-8B-Thinking: reasoning VLM для надежной конвертации документов в Markdown

Новый взгляд на OCR и структуру документов

NuMind AI выпустила NuMarkdown-8B-Thinking, открытый модельный проект под лицензией MIT, который выходит за рамки простой распознаваемости текста. Модель не только извлекает символы, но и рассуждает о разметке, структуре и форматировании документа, генерируя готовый Markdown, сохраняющий организацию исходного файла.

Подход, ориентированный на рассуждение

NuMarkdown-8B-Thinking использует подход, в котором ключевую роль играют промежуточные шаги анализа. Модель генерирует внутренние 'thinking tokens', представляющие выводы о разметке и структуре, а затем формирует финальный Markdown. Такой механизм позволяет обрабатывать реальные и сложные форматы, с которыми часто не справляются классические OCR-инструменты, например:

Много колонок с нетривиальным порядком чтения
Таблицы со смежными, вложенными или нерегулярными ячейками
Документы с изображениями, декоративными заголовками и водяными знаками
Исторические или поврежденные сканы, где важно восстанавливать структуру по слабым сигналам

Количество reasoning токенов зависит от сложности и может составлять от примерно 20% до 500% от длины итогового Markdown, показывая насколько глубоко модель анализирует структуру перед выводом.

Обучение и архитектура

NuMarkdown-8B-Thinking является дообученной версией Qwen 2.5-VL-7B от Alibaba. Пайплайн обучения включал две ключевые фазы:

Супервизированное дообучение на синтетических документах, где каждый пример содержал исходный документ, промежуточные шаги рассуждения о разметке и итоговое представление в Markdown.
Обучение с подкреплением с использованием GRPO и награды, ориентированной на корректную реконструкцию форматирования и пространственных отношений.

Такой двухэтапный подход улучшил способность модели воспроизводить сложные макеты, требующие человеческого уровня суждений.

Результаты и сравнения

Независимые тестирования и отзывы пользователей показывают сильные позиции NuMarkdown-8B-Thinking для задач конвертации OCR в Markdown. Основные преимущества:

Превосходит универсальные модели вроде GPT-4o и специализированные OCR-системы типа OCRFlux по задачам логики разметки и структурированного вывода
Сопоставим с крупными закрытыми моделями рассуждения, такими как Gemini 2.5
Близок к элитным решениям вроде Gemini Flash Reasoning в слепых рейтингах нескольких моделей

Пользователи отмечают корректный вывод порядка чтения в нелинейных макетах, сохранение сложного форматирования таблиц и чистый, пригодный для парсинга Markdown для RAG без дополнительной постобработки.

Пример использования

На примере страницы годового отчета со множеством уровней заголовков, боковыми панелями, несколькими колонками, финансовой таблицей с объединенными ячейками и юридическим футером модель сначала генерирует 'thinking tokens', описывающие границы колонок, spans таблицы и расположение футера, а затем формирует Markdown, отражающий и содержание, и структуру. Прозрачный слой промежуточного рассуждения делает решения модели проверяемыми, что важно для корпоративных и архивных сценариев.

Развертывание и лицензирование

Модель доступна на Hugging Face для тестирования и интеграции. Опубликованы веса и квантизированные GGUF-версии для локального разворачивания на CPU и GPU. NuMarkdown-8B-Thinking совместима с OpenAI-style API и Hugging Face Transformers для быстрой интеграции в конвейеры. Лицензия MIT обеспечивает свободу использования в коммерческих, исследовательских и личных проектах без привязки к поставщику.

Значение для индустрий

Для отраслей, где важна точность оцифровки документов — финансы, юриспруденция, здравоохранение, архивы — сохранение разметки не менее важно, чем корректность текста. NuMarkdown-8B-Thinking рассматривает задачу восстановления макета как задачу рассуждения и поставляет RAG-оптимизированный Markdown, предлагая открытый, проверяемый и высокопроизводительный вариант в сравнении с проприетарными решениями.