Alibaba представляет Lumos-1: прорывная унифицированная автогрессивная модель для эффективной генерации видео

Развитие автогрессивной генерации видео

Автогрессивная генерация видео — это быстро развивающаяся область, сосредоточенная на поэтапном создании видео с использованием изученных пространственных и временных закономерностей. В отличие от традиционных методов, которые используют заранее подготовленные кадры или ручные переходы, автогрессивные модели динамически генерируют видео на основе предыдущих токенов, аналогично тому, как большие языковые модели предсказывают следующие слова. Такой подход стремится объединить генерацию видео, изображений и текста в единую трансформерную архитектуру.

Проблемы спатиотемпорального моделирования

Главная сложность — точное отображение внутренних пространственно-временных зависимостей видео. Видео обладают сложной структурой во времени и пространстве. Эффективное кодирование этой информации критично для предсказания последовательных кадров. Плохое моделирование приводит к разрывам в последовательности кадров или нереалистичному содержимому. Традиционные методы обучения, такие как случайное маскирование, не обеспечивают сбалансированный учебный сигнал, вызывая утечку пространственной информации и упрощая задачу модели.

Ограничения существующих подходов

Многие методы стараются решить эти проблемы, но часто отходят от стандартных архитектур больших языковых моделей. Некоторые используют внешние предобученные текстовые энкодеры, что усложняет модель и снижает согласованность. Другие страдают от высокой задержки генерации из-за неэффективного декодирования. Модели типа Phenaki и EMU3 поддерживают сквозную генерацию, но сталкиваются с трудностями в стабильности и высокой стоимости обучения. Техники вроде raster-scan или глобального внимания плохо масштабируются на высокоразмерные видео данные.

Представляем Lumos-1: унифицированное решение

Команда исследователей из DAMO Academy Alibaba, Hupan Lab и Университета Чжэцзян разработала Lumos-1 — автогрессивную модель для генерации видео, которая сохраняет архитектуру больших языковых моделей. Lumos-1 не требует внешних энкодеров и вносит минимальные изменения в исходный дизайн LLM.

Инновации MM-RoPE и AR-DF

Lumos-1 использует MM-RoPE (мультимодальные ротационные позиционные эмбеддинги), которые расширяют традиционные RoPE, балансируя распределение частот по временной, высотной и широтной осям. Это предотвращает потерю деталей и двусмысленность позиционного кодирования.

Также внедрена AR-DF (автогрессивное дискретное диффузионное форсирование), применяющая маскирование временных трубок во время обучения, чтобы избежать чрезмерного использования немаскированной пространственной информации. Это обеспечивает равномерное обучение и высокое качество кадров при генерации.

Обучение и результаты

Lumos-1 обучалась с нуля на 60 миллионах изображений и 10 миллионах видео, используя всего 48 GPU, что демонстрирует эффективное использование памяти. Модель показывает конкурентоспособные результаты, сравнимые с ведущими решениями: EMU3 на GenEval, COSMOS-Video2World на VBench-I2V и OpenSoraPlan на VBench-T2V.

Универсальная мультимодальная генерация

Lumos-1 поддерживает генерацию текст-видео, изображение-видео и текст-изображение, демонстрируя отличную обобщающую способность по разным видам данных.

Новый стандарт в автогрессивной генерации видео

Lumos-1 решает ключевые задачи спатиотемпорального моделирования и объединяет передовые архитектуры с инновационными методами обучения, устанавливая новый стандарт эффективности и качества в области автогрессивной генерации видео. Эта разработка открывает перспективы для масштабируемой и качественной видео генерации и дальнейших исследований в мультимодальном ИИ.

Для подробностей ознакомьтесь с публикацией и репозиторием GitHub. Все заслуги принадлежат исследователям проекта.