Uni-MoE-2.0-Omni: открытая омнимодальная MoE на базе Qwen2.5-7B для текста, изображений, аудио и видео
'Uni-MoE-2.0-Omni — открытая омнимодальная MoE на Qwen2.5-7B, объединяющая текст, изображение, аудио и видео с динамической маршрутизацией экспертов и сильными результатами на множестве бенчмарков.'
Ядро, ориентированное на язык, и единый интерфейс токенов
Uni-MoE-2.0-Omni строится вокруг трансформера в стиле Qwen2.5-7B, который выступает языковым хабом. Текст, изображения, аудио и видео конвертируются в последовательности токенов, имеющие общий интерфейс с языковой моделью. Предобученные визуальные энкодеры превращают изображения и кадры в токены, унифицированный речевой энкодер сопоставляет окружающие звуки, речь и музыку в то же пространство представлений, и все токены обрабатываются одним трансформером, позволяя слоям self-attention оперировать между модальностями.
Унифицированное кодирование модальностей и 3D RoPE
Чтобы сохранить пространственно-временную структуру, система расширяет ротарные позиционные эмбеддинги до трёх координат для визуальных и аудио-потоков: время, высота и ширина. Для речевых токенов используется временная координата. Omni Modality 3D RoPE даёт трансформеру явное представление о том, когда и где появляются токены, что важно для понимания видео и аудио-визуального рассуждения.
Слияние на основе MoE и динамическая маршрутизация
Стандартные MLP-блоки заменены слоями Mixture of Experts, в которых есть три типа экспертов:
- Пустые эксперты: действуют как нулевые функции, позволяя пропускать вычисления при инференсе.
- Маршрутизируемые эксперты: специализированы по модальностям и хранят доменные знания для аудио, зрения или текста.
- Общие эксперты: небольшие, всегда активные, обеспечивают каналы обмена информацией между модальностями.
Сеть маршрутизации выбирает, какие эксперты активировать для каждого токена, что даёт специализацию без стоимости запуска всех экспертов одновременно. Архитектура поддерживает около 10 кросс-модальных конфигураций входа (например, изображение+текст, видео+речь, три модальности одновременно).
Рецепт обучения: кросс-модальное претрейнинг, прогрессивный SFT и GSPO+DPO
Модель обучена с нуля на Qwen2.5-7B плотном бэкбоне примерно на 75 миллиардов открытых мультимодальных токенов. Обучение проходит по этапам:
- Языково-центричный кросс-модальный претрейнинг на парах изображение-текст, аудио-текст и видео-текст для выравнивания модальностей в общем семантическом пространстве.
- Прогрессивная супервизированная детальная настройка (SFT), при которой активируются модально-специфические группы экспертов и вводятся управляющие токены для задач вроде синтеза речи по тексту и генерации изображений внутри единого интерфейса.
- Сбалансированная по данным фаза отжига (annealing) для перевеса наборов данных по модальностям, уменьшения переобучения на одной модальности и повышения стабильности окончательного омнимодального поведения.
- Итеративная оптимизация политики с использованием GSPO и DPO для получения варианта Uni-MoE-2.0-Thinking, усиливающего длинную пошаговую дедукцию. GSPO генерирует сигналы предпочтений (с помощью самой модели или другого LLM), а DPO превращает эти предпочтения в устойчивую цель обновления политики.
Управляемая генерация: MoE TTS и диффузионный трансформер
Генерация речи реализована через контекстно-адаптивный MoE TTS модуль поверх языковой модели. LLM эмитирует контрольные токены, описывающие тембр, стиль и язык вместе с текстовым содержанием; MoE TTS производит дискретные аудио-токены, которые внешний кодек декодирует в волновые формы, согласуя путь вывода с унифицированным речевым энкодером на входе.
Генерация и редактирование изображений выполняется через task-aware diffusion transformer, обусловленный токенами задач и токенами изображений. Токены задач кодируют режим (текст→изображение, редактирование, улучшение), легковесные проекторы отображают омнимодальные токены в пространство обусловливания диффузии, что позволяет управляемую генерацию изображений, при этом основной омнимодальный модуль остаётся замороженным на этапе окончательной визуальной донастройки.
Бенчмарки и открытые чекпоинты
Модель протестировали на 85 мультимодальных бенчмарках (изображения, текст, видео, аудио и комбинированные задачи). Среди 76 бенчмарков, общих с Qwen2.5-Omni, Uni-MoE-2.0-Omni превосходит Qwen2.5-Omni в более чем 50 задачах. Ключевые улучшения: примерно +7% в среднем по задачам понимания видео (8 задач), примерно +7% по омнимодальному пониманию на нескольких наборах (включая OmniVideoBench и WorldSense), и около +4% в аудио-визуальном рассуждении.
В задачах длинной обработки речи модель снизила словоошибочность (WER) на до 4.2% относительного на длинных разбиениях LibriSpeech и улучшила WER в TinyStories-en TTS примерно на 1%. Результаты генерации и редактирования изображений конкурентны специализированным визуальным моделям: небольшие, но постоянные приросты на GEdit Bench по сравнению с Ming Lite Omni и опережение Qwen Image и PixWizard по нескольким низкоуровневым метрикам.
Итог
Комбинация языкового ядра, единого токен-интерфейса, Omni Modality 3D RoPE и динамической MoE-архитектуры (пустые, маршрутизируемые и общие эксперты), совместно со стадированным обучением и GSPO+DPO, позволяет Uni-MoE-2.0-Omni обеспечивать совместное понимание и управляемую генерацию по тексту, изображению и речи, сохраняя при этом баланс между вычислительной эффективностью и возможностями модели.
Для подробностей смотрите бумагу, репозиторий и страницу проекта авторов.
Switch Language
Read this article in English