Skywork AI представляет R1V2: прорыв в мультимодальном рассуждении с гибридным обучением с подкреплением

Проблемы мультимодального ИИ

Недавние достижения в области мультимодального искусственного интеллекта выявили важную проблему: как сохранить высокие способности к специализированному рассуждению и одновременно обеспечить хорошую обобщаемость по разным задачам. Модели "медленного мышления" типа OpenAI-o1 и Gemini-Thinking достигли успехов в аналитическом рассуждении, но часто теряют эффективность при решении общих визуальных задач, а также склонны к визуальным галлюцинациям. Эта дилемма остается ключевой при разработке универсальных ИИ-систем.

Новая модель Skywork R1V2

Компания Skywork AI выпустила Skywork R1V2 — мультимодальную модель следующего поколения, направленную на системное решение проблемы баланса между рассуждением и обобщением. Модель основана на Skywork R1V и внедряет гибридный подход к обучению с подкреплением, сочетающий руководство модели вознаграждения с структурированными правилами. В отличие от традиционного обучения через distillation, R1V2 учится напрямую на мультимодальных взаимодействиях. Модель доступна на Hugging Face, что обеспечивает открытость и воспроизводимость.

Технические новшества

Skywork R1V2 использует Group Relative Policy Optimization (GRPO) и Selective Sample Buffer (SSB) для повышения стабильности и эффективности обучения. GRPO позволяет относительную оценку ответов в рамках одной группы запросов, но проблемы с сходимостью могут снижать качество обучающих сигналов. SSB решает эту проблему, сохраняя информативные образцы и обеспечивая доступ к ценным градиентам.

Кроме того, применяется Mixed Preference Optimization (MPO), комбинирующий предпочтения модели вознаграждения и правила. Такой гибридный оптимизационный подход улучшает качество пошагового рассуждения и сохраняет стабильность в задачах общего восприятия. Обучение модульное: легковесные адаптеры связывают замороженный визуальный энкодер Intern ViT-6B и предварительно обученную языковую модель, сохраняя способности к рассуждению и эффективно оптимизируя межмодальное согласование.

Результаты и анализ

Skywork R1V2 показывает высокие результаты на множестве тестов по рассуждению и мультимодальному анализу. По текстовым задачам модель достигает 78.9% на AIME2024, 63.6% на LiveCodeBench, 73.2% на LiveBench, 82.9% на IFEVAL и 66.3% на BFCL, значительно превосходя предшественника и конкурируя с гораздо более крупными моделями, такими как Deepseek R1 с 671 млрд параметров.

В мультимодальных тестах R1V2 набирает 73.6% на MMMU, 74.0% на MathVista, 62.6% на OlympiadBench, 49.0% на MathVision и 52.0% на MMMU-Pro. Модель стабильно обходит открытые аналоги сопоставимого и большего размера, включая Qwen2.5-VL-72B и QvQ-Preview-72B, особенно в задачах со структурированным решением, объединяющим визуальные и текстовые данные.

Сравнение с проприетарными моделями показывает, что R1V2 сокращает разрыв в производительности, превосходя Claude 3.5 Sonnet и Gemini 2 Flash на ключевых мультимодальных тестах, таких как MMMU и MathVista. При этом уровень галлюцинаций снижен до 8.7% благодаря откалиброванным стратегиям обучения с подкреплением, что обеспечивает точность и надежность рассуждений.

Качественные оценки

Модель демонстрирует системный подход к решению сложных научных и математических задач с методичным разложением и проверкой, что отражает продуманные когнитивные процессы и приближает работу ИИ к рефлексивному мышлению.

Перспективы развития

Skywork R1V2 устанавливает новый стандарт в мультимодальном рассуждении благодаря эффективно спроектированной гибридной системе обучения с подкреплением. Модель успешно решает проблему исчезающих преимуществ обучения и балансирует оптимизационные сигналы, улучшая как специализированное рассуждение, так и общее мультимодальное понимание.

С лидирующими результатами на OlympiadBench и MMMU, R1V2 представляет собой мощную открытую платформу. Skywork AI планирует дальше развивать возможности общего визуального восприятия, сохраняя при этом сложные основы рассуждения, заложенные в R1V2.

Подробности доступны в статье и модели на Hugging Face. Следите за обновлениями в Twitter, Telegram и LinkedIn, а также присоединяйтесь к сообществу ML на Reddit.