ReVisual-R1: Новый этап в мультимодальном рассуждении с открытой моделью на 7 миллиардов параметров
ReVisual-R1 — инновационная открытая мультимодальная языковая модель на 7 млрд параметров, которая достигает высоких результатов в комплексном рассуждении благодаря уникальному трехэтапному процессу обучения.
Проблемы мультимодального рассуждения
Недавние успехи текстовых моделей, таких как DeepSeek-R1, показали, что обучение с подкреплением (RL) значительно улучшает навыки рассуждения. Исследователи пытались применить эти методы RL к мультимодальным большим языковым моделям (MLLM), обрабатывающим визуальные и текстовые данные. Однако эти попытки не были полностью успешными, поскольку MLLM испытывают трудности с выполнением сложных задач рассуждения. Это указывает на то, что стратегии RL, эффективные для моделей только с текстом, могут не подходить для мультимодальных задач, где взаимодействие разных типов данных требует специальных решений.
Развитие мультимодальных языковых моделей
Создание MLLM основывается на успехах больших языковых моделей (LLM), объединяя визуальную информацию с пониманием языка. Основополагающие модели, такие как CLIP и MiniGPT-4, заложили фундамент, за ними последовали модели с инструкциями, например LLaMA. Закрытые модели демонстрируют сильные способности к рассуждению с помощью протяжённых цепочек рассуждений (CoT), а открытые модели в основном сосредоточены на дообучении и адаптациях CoT, которые часто дают краткие ответы, ограничивающие глубокое объяснение. Методы обучения с подкреплением, включая RLHF и GRPO, показали потенциал для улучшения рассуждений в LLM. Вдохновлённые этим, последние исследования стремятся применить RL в MLLM для повышения визуального рассуждения и создания более содержательных, длинных ответов.
Представление ReVisual-R1
Исследователи из Университета Цинхуа, Шанхайского университета транспорта и Шанхайской лаборатории искусственного интеллекта представили ReVisual-R1 — открытую мультимодальную модель с 7 миллиардами параметров, устанавливающую новый стандарт в мультимодальном рассуждении. Их исследование выделяет три ключевых вывода:
- Тщательное предобучение на тексте обеспечивает сильный старт, превосходя многие существующие MLLM даже до применения RL.
- Популярный алгоритм GRPO страдает от застоя градиентов, что решается новым методом Prioritized Advantage Distillation (PAD).
- Финальная фаза обучения с RL только на тексте после мультимодального RL дополнительно улучшает рассуждения.
Их трехэтапный подход — предобучение на тексте, мультимодальное RL с PAD и финальное RL на тексте — эффективно сочетает визуальное понимание и глубокое когнитивное рассуждение.
Датасет GRAMMAR
Обнаружив, что существующие мультимодальные датасеты для холодного старта недостаточно сложны для тренировки сильных моделей рассуждения, авторы разработали датасет GRAMMAR. Он сочетает разнообразные текстовые и мультимодальные примеры с помощью многоэтапного отбора. Текстовые датасеты, такие как DeepMath, показали лучшие результаты в задачах рассуждения, что указывает на то, что текстовая сложность лучше стимулирует развитие навыков рассуждения. GRAMMAR поддерживает фреймворк Staged Reinforcement Optimization (SRO), при котором сначала применяется мультимодальное RL с PAD для предотвращения застоя обучения и эффективным вознаграждением за длину, чтобы избежать многословия, а затем фаза RL только на тексте для улучшения рассуждений и языковой плавности.
Трехэтапный процесс обучения
Обучение ReVisual-R1 проходит в три этапа. Начинается с чисто текстовых данных для создания прочной языковой базы, затем применяется мультимодальное RL для улучшения визуально-текстового рассуждения и наконец — RL только на тексте для доработки рассуждений и плавности языка. Модель была протестирована на различных бенчмарках и превзошла как открытые, так и коммерческие модели в мультимодальных и математических задачах, заняв первые места в 9 из 10 тестов. Исследования абляции подтвердили важность порядка обучения и метода PAD, который помог сосредоточить обучение на качественных ответах, значительно улучшив общую производительность.
Вклад и значение
ReVisual-R1 — открытая мультимодальная модель с 7 миллиардами параметров, созданная для решения сложных задач мультимодального рассуждения. Вместо того чтобы опираться только на масштаб модели, она использует продуманный трехэтапный процесс обучения: сильное предобучение на тексте для базового понимания, мультимодальное RL с PAD для стабильного обучения и финальное текстовое RL для улучшения рассуждений. Такой подход существенно повышает эффективность, устанавливая новый стандарт среди моделей с 7 млрд параметров и демонстрируя выдающиеся результаты в сложных задачах, таких как MathVerse и AIME. Исследование показывает, как структурированный учебный план раскрывает более глубокие возможности рассуждения в мультимодальных языковых моделях.
Для подробностей смотрите статью и GitHub. Следите за исследователями в Twitter и присоединяйтесь к сообществу ML на SubReddit и в рассылке.
Switch Language
Read this article in English