DeepSeek 3B OCR: сжатие страниц в визуальные токены для почти безпотерьной обработки документов

Что делает DeepSeek-OCR

DeepSeek-AI представила DeepSeek-OCR-3B, VLM для end-to-end OCR и парсинга документов. Система сжимает изображение страницы в компактный набор визуальных токенов, которые затем декодируются 3-миллиардным Mixture-of-Experts (MoE) языковым декодером. Идея проста: представить текст оптически в виде компактных визуальных токенов, чтобы значительно сократить длину последовательности для декодера, сохранив при этом большую часть информации.

Архитектура и новшества

DeepSeek-OCR-3B состоит из двух компонентов: DeepEncoder и DeepSeek3B-MoE-A570M. DeepEncoder оптимизирован под высокое разрешение при низких активационных затратах и небольшом числе выходных токенов. В его составе есть стадия скользящего оконного внимания для локального восприятия (по образцу SAM), двухслойный сверточный компрессор с 16× уменьшением числа токенов и плотная глобальная стадия внимания, основанная на CLIP, для агрегации визуальных знаний. Такое сочетание позволяет держать память активаций под контролем на высоких разрешениях и одновременно снижать число визуальных токенов.

Декодер DeepSeek3B-MoE-A570M — это 3-миллиардная MoE-модель с примерно 570M активных параметров на токен. MoE-подход даёт высокую представительную мощь при контролируемой вычислительной нагрузке на токен за счёт выбора экспертов.

Многорежимность разрешений и бюджет токенов

DeepEncoder поддерживает нативные и динамические режимы. Нативные режимы:

Динамические режимы Gundam и Gundam-Master смешивают плиточные локальные виды с глобальным видом. Gundam даёт n×100 плюс 256 токенов или n×256 плюс 400 токенов при n от 2 до 9. Для режимов с паддингом команда предоставляет формулу вычисления действительных токенов, зависящую от соотношения сторон, что даёт меньше валидных токенов, чем сырое значение. Эти режимы помогают сопоставить бюджет токенов с комплексностью страницы.

Результаты сжатия и бенчмарки

На бенчмарке Fox DeepSeek сообщает высокую точность декодирования при сжатии текста в небольшое число визуальных токенов. При 100 визуальных токенах:

При 64 визуальных токенах точность падает с ростом степени сжатия; например, страницы с 1200–1300 текстовыми токенами имеют около 59.1% точности при ~19.7× сжатии. Эти значения указаны в таблицах технического отчёта.

На OmniDocBench команда сообщает, что DeepSeek-OCR превосходит GOT-OCR 2.0 при использовании лишь 100 визуальных токенов на страницу и превосходит MinerU 2.0 при использовании до 800 визуальных токенов, тогда как MinerU использует в среднем более 6000 токенов на страницу. Оценка представлена в терминах редактируемого расстояния.

Обучение и пропускная способность

Обучение прошло в два этапа: сначала тренировали DeepEncoder на задаче предсказания следующего токена на данных OCR 1.0, OCR 2.0 и 100M образцах LAION, затем обучали полную систему с pipeline-параллелизмом по 4 партициям. Аппаратная конфигурация включала 20 нод с 8 A100 40GB на каждой, оптимизатор AdamW. Сообщается скорость обучения около 90B текстовых токенов в день и 70B мультимодальных токенов в день. В продакшене команда указывает возможность генерации более 200k страниц в день на одной ноде с A100 40GB.

Как оценивать в вашей инфраструктуре

Для обычных отчётов и книг начните с режима Small (100 токенов) и увеличивайте бюджет токенов только при недопустимом edit distance. Для плотных мелких шрифтов или очень загруженных страниц используйте Gundam-режим, который сочетает локальные плитки и глобальную перспективу с явным бюджетированием токенов. Для документов с диаграммами, таблицами или химическими структурами ознакомьтесь с разделом “Deep parsing” в статье, где показаны преобразования в HTML-таблицы, SMILES и структурную геометрию, и проектируйте выходы, которые легко валидировать.

Главные выводы

DeepSeek-OCR реализует optical context compression: страницы служат компактными оптическими носителями, уменьшающими длину последовательности декодера без потери большей части информации. Команда заявляет почти безпотерное декодирование при ~10× сжатии (приблизительно 97% точности на Fox) и около 60% точности при ~20× сжатии. Релиз включает явные режимы бюджета токенов, 3B MoE-декодер и DeepEncoder, а также проверенную конфигурацию для Hugging Face и PyTorch, что упрощает интеграцию и проверку заявлений о производительности.