Mistral AI Запускает OCR 3: Оптимизированная Обработка Документов
Mistral AI представляет OCR 3, мощную модель OCR, предназначенную для структурированного анализа документов.
Найдено записей: 12
Mistral AI представляет OCR 3, мощную модель OCR, предназначенную для структурированного анализа документов.
'DeepSeek показал метод хранения текста как изображений, чтобы упаковать больше контекста в модели при меньшем числе токенов. Это может снизить нагрузку на вычисления и помочь моделям дольше запоминать беседы.'
Glyph рендерит длинные тексты в страницы и обрабатывает их VLM, достигая 3–4× сжатия токенов и заметного прироста скорости при работе с 128K входами.
'Baidu выпустила PaddleOCR-VL 0.9B, объединяющую NaViT-стиль энкодера с ERNIE-4.5-0.3B для быстрого и точного парсинга многоязычных документов в Markdown и JSON.'
'IBM представила Granite-Docling-258M, 258M-параметровую открытую модель Document AI, которая сохраняет структуру документов и улучшает распознавание OCR, таблиц, кода и уравнений.'
Hugging Face открывает FineVision — большой мультимодальный датасет на 24,3 млн сэмплов, который повышает точность VLM и минимизирует утечку данных.
'Ovis2.5 (9B и 2B) от Alibaba улучшает визуальное восприятие и мультимодальное рассуждение с помощью NaViT и опционального режима размышления, достигая топ-результатов среди открытых моделей ниже 40B.'
'dots.ocr — открытая 1.7B визуально-языковая модель, объединяющая детекцию макета и OCR для точного многоязычного извлечения данных из документов.'
'NuMind представила NuMarkdown-8B-Thinking, reasoning VLM который анализирует разметку документов и выводит чистый Markdown, готовый для RAG и архивов.'
GLM-4.1V-Thinking — современная модель видения и языка, устанавливающая новые стандарты мультизадачного рассуждения и понимания в сложных AI задачах.
ByteDance представила Seed1.5-VL — мощную модель vision-language, которая достигает лучших результатов на многих бенчмарках и продвигает мульти-модальное понимание и рассуждение в ИИ.
Meta AI представила Web-SSL — семейство масштабируемых визуальных моделей, обученных без языка. Они показывают конкурентные результаты на мультимодальных задачах и ставят под вопрос необходимость языкового обучения.