Как ИИ превращает шум в фильм: внутри латентных диффузионных трансформеров

Прорывной год для генерации видео с помощью ИИ

В этом году технология генерации видео шагнула далеко вперед. Системы вроде Sora от OpenAI, Veo 3 от Google DeepMind и Gen 4 от Runway умеют создавать ролики, которые порой не отличить от реальных съемок или CGI. Даже мейнстрим начал применять эти методы: Netflix использовал эффект на базе ИИ в сериале The Eternaut. Сервисы стали доступнее пользователям через приложения вроде ChatGPT и Gemini, поэтому и любители, и профессионалы пробуют создавать впечатляющие ролики.

Как обычный пользователь получает видео

Большинство взаимодействует с генерацией через приложение или сайт. Вы даете текстовый запрос, модель возвращает результат, вы корректируете запрос и повторяете. Часто нужен ряд итераций, прежде чем получится желаемый результат. Деморолики демонстрируют лучшие примеры, но ленты заполняются и некачественным или фальсифицированным контентом. Кроме того, генерация видео потребляет значительно больше энергии, чем создание текста или изображений.

Что такое диффузионные модели

Диффузионные модели учатся обращать вспять процесс постепенного зашумления изображения. При обучении они видят изображения, покрытые шаг за шагом случайным шумом, и учатся поэтапно удалять этот шум. Для генерации модель начинает с случайного шума и преобразует его в картинку, похожую на те, что были в обучающей выборке.

Текстовое управление достигается сочетанием диффузионной модели с моделью, которая сопоставляет текст и изображение. Такая модель направляет каждый шаг очистки в сторону результатов, соответствующих запросу. При этом обучение обычно проводится на огромных наборах пар текст изображение или текст видео, собранных из интернета, что порождает вопросы прав и искажений в данных.

Как диффузия применяется к видео

Видео состоит из последовательности кадров, и задача — сохранить согласованность между ними. Простая генерация кадр за кадром приводит к проблемам, когда объекты или освещение прыгают между кадрами. Необходимо учитывать временную структуру, чтобы движение выглядело естественно и объекты сохранялись от кадра к кадру.

Латентная диффузия делает задачу выполнимой

Обработка сырых пикселей каждого кадра требует огромных вычислений. Латентная диффузия уменьшает нагрузку, сжимая кадры в компактные математические представления, называемые латентным пространством. Диффузия выполняется в этом сжатом виде, а затем декодер восстанавливает видео в привычный формат. Такой подход гораздо экономичнее, чем работа непосредственно с пикселями, но генерация видео всё равно остается ресурсоемкой.

Роль трансформеров в сохранении согласованности

Чтобы поддерживать последовательность кадров, современные системы объединяют диффузию с трансформерами. Трансформеры хорошо работают с длинными последовательностями, поэтому их используют для обработки кусочков видео, разрезанных по пространству и времени. Как отметил Тим Брукс, ведущий исследователь Sora, «это похоже на то, будто у вас стопка всех кадров видео и вы вырезаете из нее маленькие кубики». Такой подход помогает модели сохранять объекты, освещение и движение согласованными. Это также позволяет обучать модели на самых разных форматах видео, от вертикальных роликов со смартфона до широкоформатных фильмов.

Аудио и синхронизация в Veo 3

Важное новшество — генерация видео вместе с аудио. Veo 3 от Google DeepMind умеет создавать синхронизированный звук и изображение, включая синхронизацию губ, эффекты и фоновые шумы. Для этого аудио и видео сжимаются в единое совместное представление, и диффузионный процесс работает над обеими модальностями одновременно. Такой подход помогает обеспечить соответствие звука и картинки.

Смешение архитектур и перспективы

Диффузионные методы обычно применялись к изображению, аудио и видео, а трансформеры доминировали в генерации текста. Сейчас границы стираются: трансформеры помогают видео с диффузией, а исследователи экспериментируют с диффузией для генерации текста. В некоторых сценариях диффузионные методы могут быть эффективнее трансформеров, поэтому можно ожидать новых гибридных архитектур и улучшений по эффективности. При этом сохранятся вопросы об энергоемкости, этике и происхождении обучающих данных.