dots.ocr: 1.7B визуально-языковая модель, задающая новый стандарт в многоязычном парсинге документов
'dots.ocr — открытая 1.7B визуально-языковая модель, объединяющая детекцию макета и OCR для точного многоязычного извлечения данных из документов.'
dots.ocr — это открытая визуально-языковая трансформерная модель, разработанная для парсинга макета документов и оптического распознавания символов (OCR) на более чем 100 языках. Она объединяет детекцию макета и распознавание содержимого в одной архитектуре, упрощая рабочие процессы для сканов, PDF и сложных документов.
Единая архитектура
dots.ocr сочетает обнаружение макета и распознавание текста в одном трансформере. Вместо раздельных пайплайнов для детекции и OCR пользователи переключают задачи с помощью подсказок. Модель содержит примерно 1.7 миллиарда параметров, что обеспечивает баланс между производительностью и требованиями к ресурсам.
Гибкость входных данных и предобработка
Модель принимает изображения и PDF-файлы и предлагает опции предобработки, такие как fitz_preprocess, чтобы улучшить результаты на низкокачественных сканах или плотных многостраничных документах. Предобработка помогает сохранить структуру макета и порядок чтения перед извлечением.
Многоязычность и структурированное извлечение
Обученная на наборах данных более чем на 100 языках и различных письмах, dots.ocr умеет извлекать обычный текст, таблицы, математические формулы в LaTeX и сохранять структуру документа, включая границы таблиц и расположение изображений. Выходные форматы включают структурированный JSON, а также Markdown и HTML там, где это уместно.
Результаты бенчмарков
В сравнительных тестах с современными системами документного ИИ dots.ocr демонстрирует конкурентоспособные или лучшие результаты, особенно в разборе таблиц и точности текста. Пример сводки результатов:
| Задача | dots.ocr | Gemini2.5-Pro | |---|---:|---:| | TEDS для таблиц | 88.6% | 85.8% | | Расстояние редактирования текста | 0.032 | 0.055 |
Эти показатели показывают более высокую точность парсинга таблиц и меньшую текстовую ошибку у dots.ocr; распознавание формул и восстановление структуры макета соответствуют или превосходят ведущие модели.
Развёртывание и интеграция
dots.ocr распространяется под лицензией MIT и доступна как open-source с кодом, документацией и предобученными весами на GitHub. Репозиторий содержит инструкции по установке через pip, Conda и Docker. Модель поддерживает шаблоны подсказок для гибкой конфигурации задач и может использоваться как интерактивно, так и в автоматических пакетных пайплайнах. Скрипты визуализации помогают проверять обнаруженные макеты и качество извлечения.
Кому это подойдёт
dots.ocr полезна командам и проектам, которым нужен надёжный, независимый от языка анализ документов: извлечение данных из счетов, академических статей, форм и многоязычных архивов, где важно сохранить структуру и порядок чтения. Единый подход модели упрощает развёртывание в продакшене и в условиях ограниченных ресурсов.
Подробную информацию и документацию можно найти на GitHub: https://github.com/rednote-hilab/dots.ocr/blob/master/assets/blog.md
Switch Language
Read this article in English