MiMo-VL-7B: Продвинутая модель для визуального восприятия и мультимодального анализа
MiMo-VL-7B — мощная визуально-языковая модель от исследователей Xiaomi, показывающая передовые результаты в визуальном понимании и мультимодальном рассуждении благодаря инновационным методам обучения.
Представляем MiMo-VL-7B: компактную и мощную модель для работы с визуальной и языковой информацией
Модели, работающие с изображениями и текстом (VLM), являются ключевыми элементами мультимодальных систем ИИ, позволяя машинам интерпретировать визуальные данные, проводить рассуждения на основе разных типов информации и эффективно взаимодействовать с цифровым и физическим окружением. Исследователи Xiaomi разработали MiMo-VL-7B — компактную модель, обладающую мощными возможностями визуального и мультимодального анализа. Она включает три основных компонента: энкодер Vision Transformer (ViT) с поддержкой нативного разрешения для сохранения детальной визуальной информации, проектор Multi-Layer Perceptron (MLP) для эффективного согласования визуальных и языковых данных, а также языковую модель MiMo-7B, оптимизированную для сложных задач рассуждения.
Двухэтапный процесс обучения
MiMo-VL-7B обучается в два этапа. Первый — это четырехступенчатая предобучающая фаза, включающая подготовку проектора, согласование визуальной и языковой частей, общее мультимодальное предобучение и дообучение с длинным контекстом. Этот этап использует огромный датасет из 2.4 триллионов токенов и формирует модель MiMo-VL-7B-SFT. Второй этап — постобучение с использованием Mixed On-policy Reinforcement Learning (MORL), который объединяет разные сигналы вознаграждения, связанные с точностью восприятия, визуальным закреплением, логическим рассуждением и предпочтениями пользователей, что приводит к модели MiMo-VL-7B-RL.
Архитектура модели
Архитектура включает три ключевых компонента: (а) энкодер Vision Transformer (Qwen2.5-ViT) для обработки изображений и видео в нативном разрешении, (б) проектор, преобразующий визуальные представления в латентное пространство, согласованное с языковой моделью, и (в) языковую модель MiMo-7B, обладающую сильными способностями к рассуждению. Данные для обучения разнообразны: мультимодальные датасеты, подписи к изображениям, данные OCR, закрепление объектов, видео, взаимодействия с GUI и примеры рассуждений.
Улучшение через MORL
Фаза постобучения использует MORL, комбинируя обучение с подкреплением с проверяемыми наградами (RLVR) и обучение с подкреплением на основе человеческой обратной связи (RLHF). RLVR применяет правил основанные функции вознаграждения для непрерывного улучшения на задачах восприятия и рассуждения, а RLHF обеспечивает согласование с человеческими предпочтениями и снижает нежелательное поведение. MORL оптимизирует обе цели одновременно, повышая общую эффективность модели.
Выдающиеся результаты оценки
Тестирование на 50 различных задачах показывает лидирующие позиции MiMo-VL-7B среди открытых моделей. В задачах общего визуально-языкового анализа MiMo-VL-7B-SFT и MiMo-VL-7B-RL достигают 64.6% и 66.7% на бенчмарке MMMUval, превосходя более крупные модели, например Gemma 3 27B. В задачах понимания документов RL-модель значительно превосходит конкурентов. В мультимодальных задачах рассуждения обе модели демонстрируют высокие результаты, при этом RL-вариант улучшает точность в MathVision с 57.9% до 60.4%. Модель также превосходно справляется с пониманием и закреплением GUI, конкурируя со специализированными решениями на Screenspot-Pro и OSWorld-G.
Лидер среди открытых моделей
MiMo-VL-7B занимает первое место по рейтингу Эло среди рассмотренных открытых VLM, превосходя модели в диапазоне от 7B до 72B параметров и приближаясь к проприетарным моделям, таким как Claude 3.7 Sonnet. MORL обеспечивает прирост более чем на 22 пункта по сравнению с SFT, что подтверждает эффективность выбранного подхода и универсальность модели.
Вклад в сообщество
Исследователи опубликовали полный набор инструментов оценки для обеспечения прозрачности и воспроизводимости в мультимодальных исследованиях. Эта работа является важным шагом вперёд для открытых моделей визуально-языкового понимания и предлагает ценные рекомендации по обучению моделей с балансировкой различных возможностей.
Подробности доступны в статье, на GitHub и на странице модели в Hugging Face. Следите за обновлениями в Twitter и присоединяйтесь к ML-сообществу на Reddit и через рассылки.
Switch Language
Read this article in English