FILTER MODE ACTIVE

#OCR

Найдено записей: 12

#OCR19.12.2025

Mistral AI Запускает OCR 3: Оптимизированная Обработка Документов

Mistral AI представляет OCR 3, мощную модель OCR, предназначенную для структурированного анализа документов.

#OCR29.10.2025

DeepSeek превращает текст в изображения, чтобы решить проблему памяти AI

'DeepSeek показал метод хранения текста как изображений, чтобы упаковать больше контекста в модели при меньшем числе токенов. Это может снизить нагрузку на вычисления и помочь моделям дольше запоминать беседы.'

ЧИТАТЬ →

#OCR28.10.2025

Glyph превращает страницы в токены: визуальное сжатие 3–4× для миллионных контекстов

Glyph рендерит длинные тексты в страницы и обрабатывает их VLM, достигая 3–4× сжатия токенов и заметного прироста скорости при работе с 128K входами.

ЧИТАТЬ →

#OCR17.10.2025

Baidu представила PaddleOCR-VL (0.9B): NaViT + ERNIE-4.5 для быстрого многоязычного парсинга документов

'Baidu выпустила PaddleOCR-VL 0.9B, объединяющую NaViT-стиль энкодера с ERNIE-4.5-0.3B для быстрого и точного парсинга многоязычных документов в Markdown и JSON.'

ЧИТАТЬ →

#OCR18.09.2025

IBM представила Granite-Docling-258M — компактную открытую модель Document AI с сохранением структуры

'IBM представила Granite-Docling-258M, 258M-параметровую открытую модель Document AI, которая сохраняет структуру документов и улучшает распознавание OCR, таблиц, кода и уравнений.'

ЧИТАТЬ →

#OCR06.09.2025

FineVision: Hugging Face выпустил открытый датасет на 24 млн примеров для обучения VLM

Hugging Face открывает FineVision — большой мультимодальный датасет на 24,3 млн сэмплов, который повышает точность VLM и минимизирует утечку данных.

ЧИТАТЬ →

#OCR18.08.2025

Ovis 2.5: мульти-модальные LLM от Alibaba с нативным разрешением и улучшённым визуальным мышлением

'Ovis2.5 (9B и 2B) от Alibaba улучшает визуальное восприятие и мультимодальное рассуждение с помощью NaViT и опционального режима размышления, достигая топ-результатов среди открытых моделей ниже 40B.'

ЧИТАТЬ →

#OCR16.08.2025

dots.ocr: 1.7B визуально-языковая модель, задающая новый стандарт в многоязычном парсинге документов

'dots.ocr — открытая 1.7B визуально-языковая модель, объединяющая детекцию макета и OCR для точного многоязычного извлечения данных из документов.'

ЧИТАТЬ →

#OCR11.08.2025

NuMind представляет NuMarkdown-8B-Thinking: reasoning VLM для надежной конвертации документов в Markdown

'NuMind представила NuMarkdown-8B-Thinking, reasoning VLM который анализирует разметку документов и выводит чистый Markdown, готовый для RAG и архивов.'

ЧИТАТЬ →

#OCR18.07.2025

GLM-4.1V-Thinking: Новый уровень мультизадачного понимания и рассуждений

GLM-4.1V-Thinking — современная модель видения и языка, устанавливающая новые стандарты мультизадачного рассуждения и понимания в сложных AI задачах.

ЧИТАТЬ →

#OCR15.05.2025

ByteDance представляет Seed1.5-VL: прорывная модель для мульти-модального искусственного интеллекта

ByteDance представила Seed1.5-VL — мощную модель vision-language, которая достигает лучших результатов на многих бенчмарках и продвигает мульти-модальное понимание и рассуждение в ИИ.

ЧИТАТЬ →

#OCR24.04.2025

Meta AI представляет Web-SSL: масштабируемое обучение визуальным представлениям без языка

Meta AI представила Web-SSL — семейство масштабируемых визуальных моделей, обученных без языка. Они показывают конкурентные результаты на мультимодальных задачах и ставят под вопрос необходимость языкового обучения.

ЧИТАТЬ →