MMaDA: Прорывная унифицированная мульти-модальная диффузионная модель для работы с текстом и изображениями

Диффузионные модели: за пределами генерации изображений

Диффузионные модели завоевали популярность благодаря способности создавать изображения высокого качества, восстанавливая исходный контент из зашумленных данных. Недавно исследователи начали изучать их потенциал для работы с разнообразными типами данных, включая дискретный текст и непрерывные изображения. Это открывает новые возможности для мульти-модальных задач, требующих понимания и генерации контента в разных модальностях.

Проблемы мульти-модальных моделей

Существующие мульти-модальные модели часто используют отдельные архитектуры или методы для текста и изображений, что ограничивает их эффективность в объединённых задачах, сочетающих рассуждения и генерацию. Многие из них специализируются на конкретных задачах, таких как генерация изображений или ответы на вопросы, но испытывают сложности при объединении этих возможностей в одной системе. Кроме того, методы постобучения, которые могли бы улучшить согласованность рассуждений и генерации, недостаточно развиты.

Ограничения популярных подходов

Модели, такие как Show-o, Janus и SEED-X, комбинируют авторегрессионные модели для текста с диффузионными генераторами изображений, требуя отдельных функций потерь, схем токенизации и конвейеров обучения. Это усложняет процесс обучения и снижает возможности моделей для согласованного выполнения рассуждений и генерации по разным модальностям. Основное внимание уделяется предподготовке, при этом игнорируются преимущества постобучения.

Представляем MMaDA: унифицированную мульти-модальную диффузионную модель

Исследователи из Принстонского университета, Пекинского университета, Университета Цинхуа и ByteDance разработали MMaDA — унифицированную мульти-модальную диффузионную модель, объединяющую текстовое рассуждение, визуальное понимание и генерацию изображений в единой вероятностной архитектуре. MMaDA использует общую диффузионную архитектуру без специфичных компонентов для каждой модальности, что упрощает обучение и позволяет одновременно обрабатывать текстовые и визуальные данные.

Инновационные методы обучения

MMaDA применяет смешанный метод тонкой настройки с длинной цепочкой рассуждений (Long-CoT), согласующий шаги рассуждений для текстовых и визуальных задач. Команда собрала разнообразный набор данных с трассами рассуждений, включая решение математических задач и визуальные вопросы, чтобы обучить модель сложным мульти-модальным рассуждениям. Также разработан UniGRPO — алгоритм обучения с подкреплением, адаптированный для диффузионных моделей, использующий градиенты политики и разнообразные сигналы награды, включая правильность, соответствие формату и визуальную согласованность.

В обучающей схеме используется единая стратегия маскирования и структурированные шаги денойзинга, которые обеспечивают стабильность обучения и эффективное восстановление контента в различных задачах.

Впечатляющие результаты на тестах

В бенчмарках MMaDA превзошла существующие модели в нескольких областях. Модель достигла CLIP-скор 32.46 и ImageReward 1.15 для генерации изображений по тексту, обойдя SDXL и Janus. В задачах мультимодального понимания она получила 86.1 по POPE, 1410.7 по MME и 67.6 по Flickr30k, превосходя Show-o и SEED-X. В текстовом рассуждении MMaDA набрала 73.4 на GSM8K и 36.0 на MATH500, обойдя диффузионные модели, такие как LLaDA-8B. Результаты подтверждают способность MMaDA выдавать качественные и стабильные результаты в задачах рассуждения, понимания и генерации.

Новый стандарт для унифицированных AI-систем

MMaDA предлагает практическое решение для создания унифицированных мульти-модальных моделей, сочетая упрощённую архитектуру с инновационными методами обучения. Исследование демонстрирует потенциал диффузионных моделей как универсальных AI-систем, способных рассуждать и генерировать контент по разным типам данных. MMaDA прокладывает путь для будущих AI-моделей, которые смогут безупречно интегрировать разнообразные задачи в единую систему.

Для подробностей ознакомьтесь с публикацией, моделью на Hugging Face и репозиторием GitHub. Следите за исследователями в Twitter и присоединяйтесь к сообществу ML на Reddit и подписывайтесь на рассылки, чтобы быть в курсе новостей.