ReVisual-R1: Новый этап в мультимодальном рассуждении с открытой моделью на 7 миллиардов параметров

Проблемы мультимодального рассуждения

Недавние успехи текстовых моделей, таких как DeepSeek-R1, показали, что обучение с подкреплением (RL) значительно улучшает навыки рассуждения. Исследователи пытались применить эти методы RL к мультимодальным большим языковым моделям (MLLM), обрабатывающим визуальные и текстовые данные. Однако эти попытки не были полностью успешными, поскольку MLLM испытывают трудности с выполнением сложных задач рассуждения. Это указывает на то, что стратегии RL, эффективные для моделей только с текстом, могут не подходить для мультимодальных задач, где взаимодействие разных типов данных требует специальных решений.

Развитие мультимодальных языковых моделей

Создание MLLM основывается на успехах больших языковых моделей (LLM), объединяя визуальную информацию с пониманием языка. Основополагающие модели, такие как CLIP и MiniGPT-4, заложили фундамент, за ними последовали модели с инструкциями, например LLaMA. Закрытые модели демонстрируют сильные способности к рассуждению с помощью протяжённых цепочек рассуждений (CoT), а открытые модели в основном сосредоточены на дообучении и адаптациях CoT, которые часто дают краткие ответы, ограничивающие глубокое объяснение. Методы обучения с подкреплением, включая RLHF и GRPO, показали потенциал для улучшения рассуждений в LLM. Вдохновлённые этим, последние исследования стремятся применить RL в MLLM для повышения визуального рассуждения и создания более содержательных, длинных ответов.

Представление ReVisual-R1

Исследователи из Университета Цинхуа, Шанхайского университета транспорта и Шанхайской лаборатории искусственного интеллекта представили ReVisual-R1 — открытую мультимодальную модель с 7 миллиардами параметров, устанавливающую новый стандарт в мультимодальном рассуждении. Их исследование выделяет три ключевых вывода:

Тщательное предобучение на тексте обеспечивает сильный старт, превосходя многие существующие MLLM даже до применения RL.
Популярный алгоритм GRPO страдает от застоя градиентов, что решается новым методом Prioritized Advantage Distillation (PAD).
Финальная фаза обучения с RL только на тексте после мультимодального RL дополнительно улучшает рассуждения.

Их трехэтапный подход — предобучение на тексте, мультимодальное RL с PAD и финальное RL на тексте — эффективно сочетает визуальное понимание и глубокое когнитивное рассуждение.

Датасет GRAMMAR

Обнаружив, что существующие мультимодальные датасеты для холодного старта недостаточно сложны для тренировки сильных моделей рассуждения, авторы разработали датасет GRAMMAR. Он сочетает разнообразные текстовые и мультимодальные примеры с помощью многоэтапного отбора. Текстовые датасеты, такие как DeepMath, показали лучшие результаты в задачах рассуждения, что указывает на то, что текстовая сложность лучше стимулирует развитие навыков рассуждения. GRAMMAR поддерживает фреймворк Staged Reinforcement Optimization (SRO), при котором сначала применяется мультимодальное RL с PAD для предотвращения застоя обучения и эффективным вознаграждением за длину, чтобы избежать многословия, а затем фаза RL только на тексте для улучшения рассуждений и языковой плавности.

Трехэтапный процесс обучения

Обучение ReVisual-R1 проходит в три этапа. Начинается с чисто текстовых данных для создания прочной языковой базы, затем применяется мультимодальное RL для улучшения визуально-текстового рассуждения и наконец — RL только на тексте для доработки рассуждений и плавности языка. Модель была протестирована на различных бенчмарках и превзошла как открытые, так и коммерческие модели в мультимодальных и математических задачах, заняв первые места в 9 из 10 тестов. Исследования абляции подтвердили важность порядка обучения и метода PAD, который помог сосредоточить обучение на качественных ответах, значительно улучшив общую производительность.

Вклад и значение

ReVisual-R1 — открытая мультимодальная модель с 7 миллиардами параметров, созданная для решения сложных задач мультимодального рассуждения. Вместо того чтобы опираться только на масштаб модели, она использует продуманный трехэтапный процесс обучения: сильное предобучение на тексте для базового понимания, мультимодальное RL с PAD для стабильного обучения и финальное текстовое RL для улучшения рассуждений. Такой подход существенно повышает эффективность, устанавливая новый стандарт среди моделей с 7 млрд параметров и демонстрируя выдающиеся результаты в сложных задачах, таких как MathVerse и AIME. Исследование показывает, как структурированный учебный план раскрывает более глубокие возможности рассуждения в мультимодальных языковых моделях.

Для подробностей смотрите статью и GitHub. Следите за исследователями в Twitter и присоединяйтесь к сообществу ML на SubReddit и в рассылке.