VL-Cogito: Курс на обучение по программе и адаптивные длины ответов для мультимодального рассуждения

Проблема мультимодального рассуждения

Мультимодальное рассуждение требует объединения текста, изображений и схем для решения задач в математике, науке, логике и анализе графиков. VL-Cogito от DAMO Academy и партнёров решает нестабильность и разрывы между доменами, внедрив RL-пайплайн, который улучшает пошаговое рассуждение и общее понимание.

Прогрессивное курсовое RL (PCuRL)

В основе VL-Cogito лежит PCuRL — фреймворк, разбивающий RL-обучение на этапы easy, medium и hard. Вместо единой стадии RL модель последовательно встречается с задачами возрастающей сложности, а механизмы награды и взвешивания адаптируются так, чтобы навыки рассуждения развивались устойчиво.

Online Difficulty Soft Weighting (ODSW)

ODSW динамически назначает веса тренировочным примерам в зависимости от их сложности и текущих возможностей модели. В отличие от жёсткой фильтрации «простых» или «трудных» примеров, ODSW регулирует вклад каждого промпта в градиенты через кусочно-заданную функцию, настроенную под этапы easy/medium/hard. Такой непрерывный учебный план опирается на теорию обучаемости и эмпирическое распределение сложности задач.

Dynamic Length Reward (DyLR)

Фиксированные вознаграждения за длину склоняют модель к излишней многословности или, наоборот, к преждевременной экономии токенов. DyLR вычисляет идеальную длину ответа для каждого промпта по средней длине корректных роллауто в для этой задачи. Для лёгких задач поощряется краткое и эффективное рассуждение, для сложных — глубокая многошаговая проработка, что балансирует эффективность и корректность.

Пайплайн обучения и гиперпараметры

RL-посттренировка VL-Cogito стартует с бэкбона Qwen2.5-VL-Instruct-7B без предварительного SFT. PCuRL проводится в трёх последовательных стадиях: easy, medium, hard. На каждом этапе набор данных перетасовывается, ODSW акцентирует градиенты на целевой сложности, а на жёстком этапе включается DyLR для расширения цепочек рассуждений.

Ключевые настройки:

Оптимизатор: AdamW, скорость обучения 1e-6, DeepSpeed-ZeRO3
Rollout batch size: 512; global batch size: 128; sequence length: 4096
KL вес: 1e-3; 16 ответов на промпт; температура 1.0
Параметры награды: α=1, β=0.5, γ=1, w=0.25 (штраф за нулевую точность)

Подбор данных и сэмплинг

Тренировочный набор охватывает 23 открытых мультимодальных датасета в шести категориях: математические рассуждения, логика, подсчёт, научные рассуждения, понимание графиков и общее понимание изображений. Все примеры переведены в формат открытого QA, чтобы исключить эксплуатацию коротких подсказок из вариантов ответов.

Фильтрация по сложности использует Qwen2.5-VL-7B-Instruct: любые примеры, которые он проходит с ≥50% точности по 8 прогонкам, исключаются, чтобы RL-фаза фокусировалась на действительно сложных задачах.

Бенчмарки и результаты

VL-Cogito оценивали по панели из десяти задач, включая Geometry@3K, MathVerse, MathVista, ChartQA, ScienceQA, MMMU, EMMA и MMStar. Абсолютные приросты точности по сравнению с бэкбоном: +7.6% на Geometry@3K, +5.5% на MathVista, +4.9% на LogicVista, +2.2% на ScienceQA, +4.5% на EMMA и +3.8% на MMStar. VL-Cogito достигает лучших или сравнимых результатов на 6 из 10 бенчмарков, особенно выделяясь в сложных математических и научных задачах.

Анализ по компонентам показывает, что только куррикулумное RL даёт средний прирост +0.8% по сравнению с vanilla GRPO. Включение DyLR дополнительно улучшает результаты в тяжёлых математических доменах, а ODSW превосходит двоичную фильтрацию трудных примеров, особенно при несбалансированных данных.

Эффективность и динамика обучения

Адаптивные награды по длине повышают среднюю точность и экономичность токенов по сравнению с фиксированными метриками. DyLR ведёт к увеличению длины цепочек рассуждений для задач по математике и логике и их сокращению для научных и общих задач, как и задумано. На жёстком этапе PCuRL наблюдается всплеск длины рассуждений и валидационной точности, тогда как vanilla GRPO показывает плато.

Примеры поведения и влияние

VL-Cogito демонстрирует детализированное пошаговое рассуждение и способность к самокоррекции. В математике модель дробит решение на подробные шаги и исправляет ошибки в процессе, благодаря RL-верификации и оценке преимущества. В задачах классификации на изображениях модель последовательно рассматривает варианты перед финальным выбором, что подтверждает её надёжное мультимодальное понимание и стабильность процесса.

Выводы и инсайты

PCuRL подтверждает важность обучаемости и промежуточной сложности для ускорения прогресса. Постепенное увеличение сложности стимулирует глубокое рассуждение, а гранулярность наград делает выводы контекстно-адаптивными. Наконец, подход без SFT холодного старта оказывается жизнеспособным и эффективным при условии правильно организованного куррикулума и адаптивных наград.