Mistral AI Запускает OCR 3: Оптимизированная Обработка Документов

Обзор Mistral OCR 3

Mistral AI выпустила Mistral OCR 3, свою последнюю службу оптического распознавания символов, которая поддерживает стек Document AI компании. Модель, названная mistral-ocr-2512, предназначена для извлечения текста и изображений из PDF и других документов с сохранением структуры. Это предлагается по выгодной цене всего $2 за 1,000 страниц с 50% скидкой при использовании через API пакетной обработки.

На что оптимизирован Mistral OCR 3?

Mistral OCR 3 нацелен на типичные рабочие нагрузки документов предприятия. Модель настроена на формы, отсканированные документы, сложные таблицы и рукописный текст, достигая 74% общей доли победы над Mistral OCR 2 в этих категориях с использованием нечеткой метрики совпадений.

Модель выводит markdown, который сохраняет макет документа, и при включении форматирования таблиц обогащает вывод HTML-таблицами, что облегчает извлечение данных и аналитику.

Роль в Mistral Document AI

OCR 3 интегрируется в Mistral Document AI, сочетая OCR с извлечением структурированных данных и вопросами-ответами по документам. Он поддерживает Document AI Playground в Mistral AI Studio, позволяя пользователям загружать PDF или изображения и получать либо чистый текст, либо структурированный JSON без кодирования.

Входы, Выходы и Структура

Процессор OCR принимает несколько форматов документов через один API. Поле document может указывать на:

document_url для PDF, pptx, docx и других форматов
image_url для форматов как png, jpeg или avif
Загруженные или закодированные в base64 PDF или изображения.

Ответом является JSON-объект с массивом pages, содержащим детали, такие как строки markdown, изображения, таблицы, обнаруженные гиперссылки и многое другое. Эта инновационная структура значительно упрощает последующую обработку данных.

Улучшения по сравнению с Mistral OCR 2

Mistral OCR 3 предлагает заметные улучшения, включая:

Ручное письмо: Повышенная точность для курсивного и смешанного содержания.
Формы: Улучшенное обнаружение полей, меток и рукописных записей в сложных макетах.
Сканированные документы: Большая устойчивость к артефактам сжатия и шуму фона.
Сложные таблицы: Продвинутая реконструкция структуры таблиц с правильными HTML-тегами.

Цены, пакетная обработка и аннотации

Цены на модель OCR 3 составляют $2 за 1,000 страниц для стандартной OCR и $3 за 1,000 аннотированных страниц. API пакетной обработки снижает эффективную цену до $1 за 1,000 страниц для обработки больших объемов документов, что делает его жизнеспособным вариантом для обширных рабочих процессов документов.

Ключевые выводы

Модель и роль: Mistral OCR 3, идентифицированный как mistral-ocr-2512, является службой OCR для стека Document AI Mistral.
Повышение точности: Превосходит Mistral OCR 2 с 74% долей победы по различным типам документов, устанавливая новый стандарт для технологии OCR.
Структурированные выходные данные: Извлекает текст и изображения, сохраняя структуру для систем последующей обработки.
API и форматы документов: Доступен через API /v1/ocr, поддерживает различные форматы документов и дополнительные параметры.
Цены и пакетная обработка: Экономичные расценки делают его подходящим для задач обработки документов в больших объемах.