Радиальное внимание: снижение затрат на видео-диффузию в 4,4 раза без потери качества

Проблемы моделей видео-диффузии

Модели диффузии значительно продвинулись в создании качественных и последовательных видео, развивая успехи в синтезе изображений. Однако добавление временного измерения в видео значительно увеличивает вычислительные затраты. Механизм самовнимания, важный для захвата зависимостей, плохо масштабируется с увеличением длины последовательности, что усложняет эффективное обучение и генерацию длинных видео. Существующие методы, такие как Sparse VideoGen, ускоряют инференс за счёт классификации голов внимания, но часто теряют в точности и обобщаемости. Другие подходы заменяют softmax-внимание на линейные аналоги, но требуют значительных изменений архитектуры. Вдохновение для новых эффективных методов пришло из физики — естественного затухания энергии сигналов во времени.

Развитие механизмов внимания для видео-синтеза

Первые видео-модели расширяли 2D-архитектуры за счёт временных компонентов. Современные модели, такие как DiT и Latte, улучшают пространственно-временное моделирование с помощью продвинутых механизмов внимания. Хотя 3D плотное внимание достигает лучших результатов, его вычисления сильно растут с длиной видео, делая генерацию длинных видео дорогой. Методы, такие как дистилляция временных шагов, квантизация и разреженное внимание, снижают затраты, но часто игнорируют уникальную структуру видео. Линейные и иерархические методы внимания повышают эффективность, но теряют детали и плохо масштабируются.

Затухание энергии во времени и пространстве и Радиальное внимание

Исследователи из MIT, NVIDIA, Princeton, UC Berkeley, Stanford и First Intelligence обнаружили явление Спатиотемпорального затухания энергии — снижение значений внимания между токенами с ростом пространственного и временного расстояния, аналогично природному затуханию сигналов. На основе этого они предложили Радиальное внимание, разреженный механизм внимания с вычислительной сложностью O(n log n). Он использует статическую маску внимания, где токены преимущественно уделяют внимание близким, а окно внимания сужается со временем. Это позволяет предобученным моделям генерировать видео в 4 раза длиннее, снижая затраты на обучение в 4,4 раза и время инференса в 3,7 раза без потери качества.

Разреженное внимание с учётом затухания энергии

Радиальное внимание опирается на наблюдение, что внимание ослабевает с увеличением расстояния в пространстве и времени. Вместо равного внимания ко всем токенам используется разреженная маска, экспоненциально убывающая во всех направлениях и сохраняющая лишь самые важные взаимодействия. Это снижает вычислительную сложность до O(n log n), делая метод значительно быстрее и эффективнее плотного внимания. С минимальной донастройкой через LoRA-адаптеры, предобученные модели могут эффективно создавать гораздо более длинные видео.

Оценка на ведущих моделях

Радиальное внимание протестировано на трёх популярных текст-видео диффузионных моделях: Mochi 1, HunyuanVideo и Wan2.1. Метод показал лучшие показатели скорости и качества по сравнению с другими разреженными механизмами, такими как SVG и PowerAttention. Достигнуто ускорение инференса до 3,7 раза и снижение затрат на обучение в 4,4 раза для длинных видео. Масштабируется на видео в 4 раза длиннее и совместимо с существующими LoRA-адаптерами, включая стилистические. В ряде случаев дообучение LoRA с Радиальным вниманием превосходит полное дообучение, что демонстрирует эффективность и экономию ресурсов.

Масштабируемая и эффективная генерация длинных видео

Радиальное внимание — это масштабируемый механизм разреженного внимания, который эффективно решает задачи генерации длинных видео в диффузионных моделях. Вдохновлённый Спатиотемпоральным затуханием энергии, он имитирует естественное затухание сигналов для снижения вычислений за счёт статической маски внимания с экспоненциально сужающимся окном. Это даёт до 1,9 раза более быструю работу и поддержку видео в 4 раза длиннее. Лёгкая донастройка с помощью LoRA значительно сокращает затраты на обучение и инференс, сохраняя качество видео на уровне современных моделей.

Больше информации можно найти в статье и на GitHub. Следите за обновлениями в Twitter, YouTube, Spotify, присоединяйтесь к ML SubReddit с 100k+ подписчиков и подписывайтесь на рассылку.