DanceGRPO: Революция в визуальной генерации с объединённым обучением с подкреплением

Современные достижения в визуальных генеративных моделях

Последние разработки в области генеративных моделей, особенно диффузионных моделей и корректирующих потоков, значительно улучшили качество и универсальность создания визуального контента. Однако для соответствия результатов человеческим предпочтениям необходимо интегрировать обратную связь от людей во время обучения, что остаётся сложной задачей.

Проблемы существующих методов обучения с подкреплением

Существующие методы обучения с подкреплением, такие как ReFL, используют дифференцируемые модели вознаграждения, но требуют большого объёма видеопамяти, особенно при генерации видео. Варианты Direct Policy Optimization (DPO) обеспечивают лишь незначительные улучшения качества изображения. Кроме того, методы RL сталкиваются с конфликтами между ODE-основанной выборкой и формализацией процесса принятия решений Маркова, нестабильностью при масштабировании и отсутствием проверки на задачах генерации видео.

Использование RLHF для согласования с человеческими предпочтениями

Выравнивание больших языковых моделей (LLM) достигается с помощью Reinforcement Learning from Human Feedback (RLHF), который обучает функции вознаграждения на основе сравнительных данных для отражения предпочтений человека. Методы с градиентом политики эффективны, но требуют больших вычислительных ресурсов и тщательной настройки. DPO более экономичен, но уступает в производительности. Недавние исследования, такие как DeepSeek-R1, показывают, что масштабное RL с специализированными функциями вознаграждения может стимулировать формирование самозарождающихся мыслительных процессов.

Представление DanceGRPO: объединённой платформы

Исследователи из ByteDance Seed и Университета Гонконга разработали DanceGRPO — единую платформу, адаптирующую Group Relative Policy Optimization (GRPO) для задач визуальной генерации. DanceGRPO эффективно работает с диффузионными моделями и корректирующими потоками, поддерживая задачи текст-в-изображение, текст-в-видео и изображение-в-видео.

Интеграция с основными моделями и моделями вознаграждения

DanceGRPO совместим с четырьмя базовыми моделями: Stable Diffusion, HunyuanVideo, FLUX и SkyReels-I2V. В систему включены пять специализированных моделей вознаграждения, которые оценивают эстетику изображений и видео, соответствие текста и изображения, качество движения в видео и бинарные пороговые вознаграждения.

Специализированные модели вознаграждения

Эстетика изображений: Оценивает визуальную привлекательность на основе моделей, обученных на данных с человеческими оценками.
Соответствие текст-изображение: Использует CLIP для максимизации кроссмодальной согласованности.
Качество эстетики видео: Расширяет оценку на временную составляющую с помощью моделей Vision Language Models (VLM).
Качество движения в видео: Анализирует реалистичность движения с помощью физически ориентированных VLM.
Пороговое бинарное вознаграждение: Применяет дискретизацию, где значения выше порога получают 1, остальные — 0, что помогает оценивать способность моделей обучаться резким распределениям вознаграждения.

Результаты и показатели эффективности

DanceGRPO превосходит базовые методы до 181% на ключевых бенчмарках, таких как HPS-v2.1, CLIP Score, VideoAlign и GenEval. Например, для Stable Diffusion v1.4 HPS вырос с 0.239 до 0.365, а CLIP Score — с 0.363 до 0.395. В задачах текст-в-изображение с HunyuanVideo средний балл вознаграждения заметно увеличился, подтверждая лучшее соответствие человеческим эстетическим предпочтениям.

Значение и перспективы развития

DanceGRPO устраняет основные ограничения предыдущих методов RL, объединяя языковые и визуальные модальности и обеспечивая стабильное масштабирование на сложных многоцелевых задачах. Фреймворк улучшает визуальную точность, качество движения и согласованность текста и изображения. В будущем планируется расширение GRPO на мультимодальную генерацию для дальнейшего объединения методов оптимизации в генеративном ИИ.

Подробнее читайте в оригинальной статье и на странице проекта. Следите за обновлениями в Twitter и присоединяйтесь к сообществу ML SubReddit с более чем 90 тысячами участников.