DeepSeek 3B OCR: сжатие страниц в визуальные токены для почти безпотерьной обработки документов
Что делает DeepSeek-OCR
DeepSeek-AI представила DeepSeek-OCR-3B, VLM для end-to-end OCR и парсинга документов. Система сжимает изображение страницы в компактный набор визуальных токенов, которые затем декодируются 3-миллиардным Mixture-of-Experts (MoE) языковым декодером. Идея проста: представить текст оптически в виде компактных визуальных токенов, чтобы значительно сократить длину последовательности для декодера, сохранив при этом большую часть информации.
Архитектура и новшества
DeepSeek-OCR-3B состоит из двух компонентов: DeepEncoder и DeepSeek3B-MoE-A570M. DeepEncoder оптимизирован под высокое разрешение при низких активационных затратах и небольшом числе выходных токенов. В его составе есть стадия скользящего оконного внимания для локального восприятия (по образцу SAM), двухслойный сверточный компрессор с 16× уменьшением числа токенов и плотная глобальная стадия внимания, основанная на CLIP, для агрегации визуальных знаний. Такое сочетание позволяет держать память активаций под контролем на высоких разрешениях и одновременно снижать число визуальных токенов.
Декодер DeepSeek3B-MoE-A570M — это 3-миллиардная MoE-модель с примерно 570M активных параметров на токен. MoE-подход даёт высокую представительную мощь при контролируемой вычислительной нагрузке на токен за счёт выбора экспертов.
Многорежимность разрешений и бюджет токенов
DeepEncoder поддерживает нативные и динамические режимы. Нативные режимы:
- Tiny: 64 токена при 512×512
- Small: 100 токенов при 640×640
- Base: 256 токенов при 1024×1024
- Large: 400 токенов при 1280×1280
Динамические режимы Gundam и Gundam-Master смешивают плиточные локальные виды с глобальным видом. Gundam даёт n×100 плюс 256 токенов или n×256 плюс 400 токенов при n от 2 до 9. Для режимов с паддингом команда предоставляет формулу вычисления действительных токенов, зависящую от соотношения сторон, что даёт меньше валидных токенов, чем сырое значение. Эти режимы помогают сопоставить бюджет токенов с комплексностью страницы.
Результаты сжатия и бенчмарки
На бенчмарке Fox DeepSeek сообщает высокую точность декодирования при сжатии текста в небольшое число визуальных токенов. При 100 визуальных токенах:
- Страницы с 600–700 текстовыми токенами достигают 98.5% точности при ~6.7× сжатии.
- Страницы с 900–1000 текстовыми токенами достигают 96.8% точности при ~9.7× сжатии.
При 64 визуальных токенах точность падает с ростом степени сжатия; например, страницы с 1200–1300 текстовыми токенами имеют около 59.1% точности при ~19.7× сжатии. Эти значения указаны в таблицах технического отчёта.
На OmniDocBench команда сообщает, что DeepSeek-OCR превосходит GOT-OCR 2.0 при использовании лишь 100 визуальных токенов на страницу и превосходит MinerU 2.0 при использовании до 800 визуальных токенов, тогда как MinerU использует в среднем более 6000 токенов на страницу. Оценка представлена в терминах редактируемого расстояния.
Обучение и пропускная способность
Обучение прошло в два этапа: сначала тренировали DeepEncoder на задаче предсказания следующего токена на данных OCR 1.0, OCR 2.0 и 100M образцах LAION, затем обучали полную систему с pipeline-параллелизмом по 4 партициям. Аппаратная конфигурация включала 20 нод с 8 A100 40GB на каждой, оптимизатор AdamW. Сообщается скорость обучения около 90B текстовых токенов в день и 70B мультимодальных токенов в день. В продакшене команда указывает возможность генерации более 200k страниц в день на одной ноде с A100 40GB.
Как оценивать в вашей инфраструктуре
Для обычных отчётов и книг начните с режима Small (100 токенов) и увеличивайте бюджет токенов только при недопустимом edit distance. Для плотных мелких шрифтов или очень загруженных страниц используйте Gundam-режим, который сочетает локальные плитки и глобальную перспективу с явным бюджетированием токенов. Для документов с диаграммами, таблицами или химическими структурами ознакомьтесь с разделом “Deep parsing” в статье, где показаны преобразования в HTML-таблицы, SMILES и структурную геометрию, и проектируйте выходы, которые легко валидировать.
Главные выводы
DeepSeek-OCR реализует optical context compression: страницы служат компактными оптическими носителями, уменьшающими длину последовательности декодера без потери большей части информации. Команда заявляет почти безпотерное декодирование при ~10× сжатии (приблизительно 97% точности на Fox) и около 60% точности при ~20× сжатии. Релиз включает явные режимы бюджета токенов, 3B MoE-декодер и DeepEncoder, а также проверенную конфигурацию для Hugging Face и PyTorch, что упрощает интеграцию и проверку заявлений о производительности.