Ovis 2.5: мульти-модальные LLM от Alibaba с нативным разрешением и улучшённым визуальным мышлением

Что нового в Ovis 2.5

Ovis2.5 — последняя мульти-модальная языковая модель (MLLM) от команды AIDC-AI Alibaba, доступная в вариантах 9B и 2B параметров. Модель решает давние проблемы мультимодальных систем: она улучшает восприятие изображений в высоком разрешении, углублённое мультимодальное рассуждение и надёжный OCR, сохраняя мелкие детали и контекст visual inputs.

Нативное разрешение и NaViT

Ключевая инновация Ovis2.5 — native-resolution vision transformer (NaViT). В отличие от подходов с тайлингом или обязательным изменением размера, NaViT обрабатывает изображения в их исходном, переменном разрешении, что позволяет сохранять глобальный контекст и тонкие детали. Это особенно полезно для научных диаграмм, сложных инфографик, графиков и форм, где потеря деталей критична.

Глубокое рассуждение и режим "thinking"

Для повышения качества рассуждений Ovis2.5 использует учебный план, выходящий за рамки стандартного chain-of-thought. В тренировочных данных есть примеры в стиле размышления, которые помогают модели к самокоррекции и рефлексии. При инференсе доступен опциональный режим 'thinking mode', который увеличивает точность шаговых рассуждений в обмен на большую задержку — полезно для задач типа научных вопросов или математических задач.

Результаты и бенчмарки

Ovis2.5-9B набирает в среднем 78.3 на мульти-модальном лидерборде OpenCompass, обходя все открытые MLLM ниже 40B параметров. Вариант 2B показывает 73.9, задавая высокий стандарт для лёгких моделей, пригодных для работы на устройствах с ограниченными ресурсами. Модель лидирует среди open-source решений в областях:

STEM-рассуждение (MathVista, MMMU, WeMath)
OCR и анализ графиков (OCRBench v2, ChartQA Pro)
Визуальное привязывание (RefCOCO, RefCOCOg)
Понимание видео и мультиизображений (BLINK, VideoMME)

Технические обсуждения в Reddit и X отмечают заметный прогресс в OCR и обработке документов: более точный извлечённый текст из загромождённых изображений, надёжное понимание форм и гибкая поддержка сложных визуальных запросов.

Эффективность обучения и масштабируемое развёртывание

Ovis2.5 повышает эффективность end-to-end обучения с помощью упаковки мультимодальных данных и продвинутой гибридной параллельности, достигая ускорения пропускной способности в 3–4×. Лёгкий 2B вариант продолжает философию 'small model, big performance', делая продвинутые мультимодальные возможности доступными на мобильном железе и edge-устройствах.

Где посмотреть материалы

Технический отчёт и чекпойнты моделей доступны на Hugging Face. На GitHub размещены туториалы, код и ноутбуки. Подписывайтесь на каналы проекта и участвуте в сообществах для обсуждений и обновлений.