Mistral AI Запускает OCR 3: Оптимизированная Обработка Документов
Mistral AI представляет OCR 3, мощную модель OCR, предназначенную для структурированного анализа документов.
Обзор Mistral OCR 3
Mistral AI выпустила Mistral OCR 3, свою последнюю службу оптического распознавания символов, которая поддерживает стек Document AI компании. Модель, названная mistral-ocr-2512, предназначена для извлечения текста и изображений из PDF и других документов с сохранением структуры. Это предлагается по выгодной цене всего $2 за 1,000 страниц с 50% скидкой при использовании через API пакетной обработки.
На что оптимизирован Mistral OCR 3?
Mistral OCR 3 нацелен на типичные рабочие нагрузки документов предприятия. Модель настроена на формы, отсканированные документы, сложные таблицы и рукописный текст, достигая 74% общей доли победы над Mistral OCR 2 в этих категориях с использованием нечеткой метрики совпадений.
Модель выводит markdown, который сохраняет макет документа, и при включении форматирования таблиц обогащает вывод HTML-таблицами, что облегчает извлечение данных и аналитику.
Роль в Mistral Document AI
OCR 3 интегрируется в Mistral Document AI, сочетая OCR с извлечением структурированных данных и вопросами-ответами по документам. Он поддерживает Document AI Playground в Mistral AI Studio, позволяя пользователям загружать PDF или изображения и получать либо чистый текст, либо структурированный JSON без кодирования.
Входы, Выходы и Структура
Процессор OCR принимает несколько форматов документов через один API. Поле document может указывать на:
document_urlдля PDF, pptx, docx и других форматовimage_urlдля форматов как png, jpeg или avif- Загруженные или закодированные в base64 PDF или изображения.
Ответом является JSON-объект с массивом pages, содержащим детали, такие как строки markdown, изображения, таблицы, обнаруженные гиперссылки и многое другое. Эта инновационная структура значительно упрощает последующую обработку данных.
Улучшения по сравнению с Mistral OCR 2
Mistral OCR 3 предлагает заметные улучшения, включая:
- Ручное письмо: Повышенная точность для курсивного и смешанного содержания.
- Формы: Улучшенное обнаружение полей, меток и рукописных записей в сложных макетах.
- Сканированные документы: Большая устойчивость к артефактам сжатия и шуму фона.
- Сложные таблицы: Продвинутая реконструкция структуры таблиц с правильными HTML-тегами.
Цены, пакетная обработка и аннотации
Цены на модель OCR 3 составляют $2 за 1,000 страниц для стандартной OCR и $3 за 1,000 аннотированных страниц. API пакетной обработки снижает эффективную цену до $1 за 1,000 страниц для обработки больших объемов документов, что делает его жизнеспособным вариантом для обширных рабочих процессов документов.
Ключевые выводы
- Модель и роль: Mistral OCR 3, идентифицированный как
mistral-ocr-2512, является службой OCR для стека Document AI Mistral. - Повышение точности: Превосходит Mistral OCR 2 с 74% долей победы по различным типам документов, устанавливая новый стандарт для технологии OCR.
- Структурированные выходные данные: Извлекает текст и изображения, сохраняя структуру для систем последующей обработки.
- API и форматы документов: Доступен через API
/v1/ocr, поддерживает различные форматы документов и дополнительные параметры. - Цены и пакетная обработка: Экономичные расценки делают его подходящим для задач обработки документов в больших объемах.
Switch Language
Read this article in English