NuMind представляет NuMarkdown-8B-Thinking: reasoning VLM для надежной конвертации документов в Markdown
'NuMind представила NuMarkdown-8B-Thinking, reasoning VLM который анализирует разметку документов и выводит чистый Markdown, готовый для RAG и архивов.'
Новый взгляд на OCR и структуру документов
NuMind AI выпустила NuMarkdown-8B-Thinking, открытый модельный проект под лицензией MIT, который выходит за рамки простой распознаваемости текста. Модель не только извлекает символы, но и рассуждает о разметке, структуре и форматировании документа, генерируя готовый Markdown, сохраняющий организацию исходного файла.
Подход, ориентированный на рассуждение
NuMarkdown-8B-Thinking использует подход, в котором ключевую роль играют промежуточные шаги анализа. Модель генерирует внутренние 'thinking tokens', представляющие выводы о разметке и структуре, а затем формирует финальный Markdown. Такой механизм позволяет обрабатывать реальные и сложные форматы, с которыми часто не справляются классические OCR-инструменты, например:
- Много колонок с нетривиальным порядком чтения
- Таблицы со смежными, вложенными или нерегулярными ячейками
- Документы с изображениями, декоративными заголовками и водяными знаками
- Исторические или поврежденные сканы, где важно восстанавливать структуру по слабым сигналам
Количество reasoning токенов зависит от сложности и может составлять от примерно 20% до 500% от длины итогового Markdown, показывая насколько глубоко модель анализирует структуру перед выводом.
Обучение и архитектура
NuMarkdown-8B-Thinking является дообученной версией Qwen 2.5-VL-7B от Alibaba. Пайплайн обучения включал две ключевые фазы:
- Супервизированное дообучение на синтетических документах, где каждый пример содержал исходный документ, промежуточные шаги рассуждения о разметке и итоговое представление в Markdown.
- Обучение с подкреплением с использованием GRPO и награды, ориентированной на корректную реконструкцию форматирования и пространственных отношений.
Такой двухэтапный подход улучшил способность модели воспроизводить сложные макеты, требующие человеческого уровня суждений.
Результаты и сравнения
Независимые тестирования и отзывы пользователей показывают сильные позиции NuMarkdown-8B-Thinking для задач конвертации OCR в Markdown. Основные преимущества:
- Превосходит универсальные модели вроде GPT-4o и специализированные OCR-системы типа OCRFlux по задачам логики разметки и структурированного вывода
- Сопоставим с крупными закрытыми моделями рассуждения, такими как Gemini 2.5
- Близок к элитным решениям вроде Gemini Flash Reasoning в слепых рейтингах нескольких моделей
Пользователи отмечают корректный вывод порядка чтения в нелинейных макетах, сохранение сложного форматирования таблиц и чистый, пригодный для парсинга Markdown для RAG без дополнительной постобработки.
Пример использования
На примере страницы годового отчета со множеством уровней заголовков, боковыми панелями, несколькими колонками, финансовой таблицей с объединенными ячейками и юридическим футером модель сначала генерирует 'thinking tokens', описывающие границы колонок, spans таблицы и расположение футера, а затем формирует Markdown, отражающий и содержание, и структуру. Прозрачный слой промежуточного рассуждения делает решения модели проверяемыми, что важно для корпоративных и архивных сценариев.
Развертывание и лицензирование
Модель доступна на Hugging Face для тестирования и интеграции. Опубликованы веса и квантизированные GGUF-версии для локального разворачивания на CPU и GPU. NuMarkdown-8B-Thinking совместима с OpenAI-style API и Hugging Face Transformers для быстрой интеграции в конвейеры. Лицензия MIT обеспечивает свободу использования в коммерческих, исследовательских и личных проектах без привязки к поставщику.
Значение для индустрий
Для отраслей, где важна точность оцифровки документов — финансы, юриспруденция, здравоохранение, архивы — сохранение разметки не менее важно, чем корректность текста. NuMarkdown-8B-Thinking рассматривает задачу восстановления макета как задачу рассуждения и поставляет RAG-оптимизированный Markdown, предлагая открытый, проверяемый и высокопроизводительный вариант в сравнении с проприетарными решениями.
Switch Language
Read this article in English