dots.ocr: 1.7B визуально-языковая модель, задающая новый стандарт в многоязычном парсинге документов

dots.ocr — это открытая визуально-языковая трансформерная модель, разработанная для парсинга макета документов и оптического распознавания символов (OCR) на более чем 100 языках. Она объединяет детекцию макета и распознавание содержимого в одной архитектуре, упрощая рабочие процессы для сканов, PDF и сложных документов.

Единая архитектура

dots.ocr сочетает обнаружение макета и распознавание текста в одном трансформере. Вместо раздельных пайплайнов для детекции и OCR пользователи переключают задачи с помощью подсказок. Модель содержит примерно 1.7 миллиарда параметров, что обеспечивает баланс между производительностью и требованиями к ресурсам.

Гибкость входных данных и предобработка

Модель принимает изображения и PDF-файлы и предлагает опции предобработки, такие как fitz_preprocess, чтобы улучшить результаты на низкокачественных сканах или плотных многостраничных документах. Предобработка помогает сохранить структуру макета и порядок чтения перед извлечением.

Многоязычность и структурированное извлечение

Обученная на наборах данных более чем на 100 языках и различных письмах, dots.ocr умеет извлекать обычный текст, таблицы, математические формулы в LaTeX и сохранять структуру документа, включая границы таблиц и расположение изображений. Выходные форматы включают структурированный JSON, а также Markdown и HTML там, где это уместно.

Результаты бенчмарков

В сравнительных тестах с современными системами документного ИИ dots.ocr демонстрирует конкурентоспособные или лучшие результаты, особенно в разборе таблиц и точности текста. Пример сводки результатов:

| Задача | dots.ocr | Gemini2.5-Pro | |---|---:|---:| | TEDS для таблиц | 88.6% | 85.8% | | Расстояние редактирования текста | 0.032 | 0.055 |

Эти показатели показывают более высокую точность парсинга таблиц и меньшую текстовую ошибку у dots.ocr; распознавание формул и восстановление структуры макета соответствуют или превосходят ведущие модели.

Развёртывание и интеграция

dots.ocr распространяется под лицензией MIT и доступна как open-source с кодом, документацией и предобученными весами на GitHub. Репозиторий содержит инструкции по установке через pip, Conda и Docker. Модель поддерживает шаблоны подсказок для гибкой конфигурации задач и может использоваться как интерактивно, так и в автоматических пакетных пайплайнах. Скрипты визуализации помогают проверять обнаруженные макеты и качество извлечения.

Кому это подойдёт

dots.ocr полезна командам и проектам, которым нужен надёжный, независимый от языка анализ документов: извлечение данных из счетов, академических статей, форм и многоязычных архивов, где важно сохранить структуру и порядок чтения. Единый подход модели упрощает развёртывание в продакшене и в условиях ограниченных ресурсов.

Подробную информацию и документацию можно найти на GitHub: https://github.com/rednote-hilab/dots.ocr/blob/master/assets/blog.md

dots.ocr: 1.7B визуально-языковая модель, задающая новый стандарт в многоязычном парсинге документов

Switch Language