VL-Cogito: Курс на обучение по программе и адаптивные длины ответов для мультимодального рассуждения
'VL-Cogito внедряет поэтапное RL и динамические награды по длине, значительно улучшая результаты на задачах по математике, науке и анализу графиков.'
Проблема мультимодального рассуждения
Мультимодальное рассуждение требует объединения текста, изображений и схем для решения задач в математике, науке, логике и анализе графиков. VL-Cogito от DAMO Academy и партнёров решает нестабильность и разрывы между доменами, внедрив RL-пайплайн, который улучшает пошаговое рассуждение и общее понимание.
Прогрессивное курсовое RL (PCuRL)
В основе VL-Cogito лежит PCuRL — фреймворк, разбивающий RL-обучение на этапы easy, medium и hard. Вместо единой стадии RL модель последовательно встречается с задачами возрастающей сложности, а механизмы награды и взвешивания адаптируются так, чтобы навыки рассуждения развивались устойчиво.
Online Difficulty Soft Weighting (ODSW)
ODSW динамически назначает веса тренировочным примерам в зависимости от их сложности и текущих возможностей модели. В отличие от жёсткой фильтрации «простых» или «трудных» примеров, ODSW регулирует вклад каждого промпта в градиенты через кусочно-заданную функцию, настроенную под этапы easy/medium/hard. Такой непрерывный учебный план опирается на теорию обучаемости и эмпирическое распределение сложности задач.
Dynamic Length Reward (DyLR)
Фиксированные вознаграждения за длину склоняют модель к излишней многословности или, наоборот, к преждевременной экономии токенов. DyLR вычисляет идеальную длину ответа для каждого промпта по средней длине корректных роллауто в для этой задачи. Для лёгких задач поощряется краткое и эффективное рассуждение, для сложных — глубокая многошаговая проработка, что балансирует эффективность и корректность.
Пайплайн обучения и гиперпараметры
RL-посттренировка VL-Cogito стартует с бэкбона Qwen2.5-VL-Instruct-7B без предварительного SFT. PCuRL проводится в трёх последовательных стадиях: easy, medium, hard. На каждом этапе набор данных перетасовывается, ODSW акцентирует градиенты на целевой сложности, а на жёстком этапе включается DyLR для расширения цепочек рассуждений.
Ключевые настройки:
- Оптимизатор: AdamW, скорость обучения 1e-6, DeepSpeed-ZeRO3
- Rollout batch size: 512; global batch size: 128; sequence length: 4096
- KL вес: 1e-3; 16 ответов на промпт; температура 1.0
- Параметры награды: α=1, β=0.5, γ=1, w=0.25 (штраф за нулевую точность)
Подбор данных и сэмплинг
Тренировочный набор охватывает 23 открытых мультимодальных датасета в шести категориях: математические рассуждения, логика, подсчёт, научные рассуждения, понимание графиков и общее понимание изображений. Все примеры переведены в формат открытого QA, чтобы исключить эксплуатацию коротких подсказок из вариантов ответов.
Фильтрация по сложности использует Qwen2.5-VL-7B-Instruct: любые примеры, которые он проходит с ≥50% точности по 8 прогонкам, исключаются, чтобы RL-фаза фокусировалась на действительно сложных задачах.
Бенчмарки и результаты
VL-Cogito оценивали по панели из десяти задач, включая Geometry@3K, MathVerse, MathVista, ChartQA, ScienceQA, MMMU, EMMA и MMStar. Абсолютные приросты точности по сравнению с бэкбоном: +7.6% на Geometry@3K, +5.5% на MathVista, +4.9% на LogicVista, +2.2% на ScienceQA, +4.5% на EMMA и +3.8% на MMStar. VL-Cogito достигает лучших или сравнимых результатов на 6 из 10 бенчмарков, особенно выделяясь в сложных математических и научных задачах.
Анализ по компонентам показывает, что только куррикулумное RL даёт средний прирост +0.8% по сравнению с vanilla GRPO. Включение DyLR дополнительно улучшает результаты в тяжёлых математических доменах, а ODSW превосходит двоичную фильтрацию трудных примеров, особенно при несбалансированных данных.
Эффективность и динамика обучения
Адаптивные награды по длине повышают среднюю точность и экономичность токенов по сравнению с фиксированными метриками. DyLR ведёт к увеличению длины цепочек рассуждений для задач по математике и логике и их сокращению для научных и общих задач, как и задумано. На жёстком этапе PCuRL наблюдается всплеск длины рассуждений и валидационной точности, тогда как vanilla GRPO показывает плато.
Примеры поведения и влияние
VL-Cogito демонстрирует детализированное пошаговое рассуждение и способность к самокоррекции. В математике модель дробит решение на подробные шаги и исправляет ошибки в процессе, благодаря RL-верификации и оценке преимущества. В задачах классификации на изображениях модель последовательно рассматривает варианты перед финальным выбором, что подтверждает её надёжное мультимодальное понимание и стабильность процесса.
Выводы и инсайты
PCuRL подтверждает важность обучаемости и промежуточной сложности для ускорения прогресса. Постепенное увеличение сложности стимулирует глубокое рассуждение, а гранулярность наград делает выводы контекстно-адаптивными. Наконец, подход без SFT холодного старта оказывается жизнеспособным и эффективным при условии правильно организованного куррикулума и адаптивных наград.
Switch Language
Read this article in English