Ovis 2.5: мульти-модальные LLM от Alibaba с нативным разрешением и улучшённым визуальным мышлением
'Ovis2.5 (9B и 2B) от Alibaba улучшает визуальное восприятие и мультимодальное рассуждение с помощью NaViT и опционального режима размышления, достигая топ-результатов среди открытых моделей ниже 40B.'
Что нового в Ovis 2.5
Ovis2.5 — последняя мульти-модальная языковая модель (MLLM) от команды AIDC-AI Alibaba, доступная в вариантах 9B и 2B параметров. Модель решает давние проблемы мультимодальных систем: она улучшает восприятие изображений в высоком разрешении, углублённое мультимодальное рассуждение и надёжный OCR, сохраняя мелкие детали и контекст visual inputs.
Нативное разрешение и NaViT
Ключевая инновация Ovis2.5 — native-resolution vision transformer (NaViT). В отличие от подходов с тайлингом или обязательным изменением размера, NaViT обрабатывает изображения в их исходном, переменном разрешении, что позволяет сохранять глобальный контекст и тонкие детали. Это особенно полезно для научных диаграмм, сложных инфографик, графиков и форм, где потеря деталей критична.
Глубокое рассуждение и режим "thinking"
Для повышения качества рассуждений Ovis2.5 использует учебный план, выходящий за рамки стандартного chain-of-thought. В тренировочных данных есть примеры в стиле размышления, которые помогают модели к самокоррекции и рефлексии. При инференсе доступен опциональный режим 'thinking mode', который увеличивает точность шаговых рассуждений в обмен на большую задержку — полезно для задач типа научных вопросов или математических задач.
Результаты и бенчмарки
Ovis2.5-9B набирает в среднем 78.3 на мульти-модальном лидерборде OpenCompass, обходя все открытые MLLM ниже 40B параметров. Вариант 2B показывает 73.9, задавая высокий стандарт для лёгких моделей, пригодных для работы на устройствах с ограниченными ресурсами. Модель лидирует среди open-source решений в областях:
- STEM-рассуждение (MathVista, MMMU, WeMath)
- OCR и анализ графиков (OCRBench v2, ChartQA Pro)
- Визуальное привязывание (RefCOCO, RefCOCOg)
- Понимание видео и мультиизображений (BLINK, VideoMME)
Технические обсуждения в Reddit и X отмечают заметный прогресс в OCR и обработке документов: более точный извлечённый текст из загромождённых изображений, надёжное понимание форм и гибкая поддержка сложных визуальных запросов.
Эффективность обучения и масштабируемое развёртывание
Ovis2.5 повышает эффективность end-to-end обучения с помощью упаковки мультимодальных данных и продвинутой гибридной параллельности, достигая ускорения пропускной способности в 3–4×. Лёгкий 2B вариант продолжает философию 'small model, big performance', делая продвинутые мультимодальные возможности доступными на мобильном железе и edge-устройствах.
Где посмотреть материалы
Технический отчёт и чекпойнты моделей доступны на Hugging Face. На GitHub размещены туториалы, код и ноутбуки. Подписывайтесь на каналы проекта и участвуте в сообществах для обсуждений и обновлений.
Switch Language
Read this article in English