Google DeepMind представляет «Motion Prompting» для точного управления генерацией видео на CVPR 2025

Введение в Motion Prompting для управления видео

Исследователи из Google DeepMind, Университета Мичигана и Университета Брауна представили инновационный метод «Motion Prompting» на конференции CVPR 2025. Эта технология позволяет точно управлять генерацией видео, используя конкретные траектории движения вместо традиционных текстовых подсказок.

Что такое Motion Prompts?

Motion prompts — это представления движений, которые могут быть разреженными или плотными, отслеживающие перемещение точек во времени. Такая гибкая система способна описывать любое движение: от легкого шелестения волос до сложных движений камеры. Команда обучила адаптер ControlNet поверх модели видео-диффузии Lumiere, используя большой датасет из 2,2 миллиона видео с детальными треками движения, извлеченными алгоритмом BootsTAP.

Расширение Motion Prompt: от простых команд к сложным движениям

Для упрощения взаимодействия разработана система "motion prompt expansion", которая преобразует высокоуровневые пользовательские действия, например, перетаскивание мышью, в детальные инструкции для модели. Пользователи могут просто кликать и тянуть объекты на изображениях, чтобы оживить их: повернуть голову попугая или поиграть с волосами, и модель сгенерирует реалистичное видео. Система демонстрирует даже неожиданные физические эффекты, например, песок реалистично рассыпается при «толкании» курсором.

Разнообразие применений Motion Prompting

Управление объектами и камерой: Пользователи могут точно контролировать объекты и движения камеры, интерпретируя движения мыши как команды для геометрических примитивов. Это позволяет выполнять сложные манипуляции, например вращение головы кота или орбитальное движение камеры с учетом глубины сцены.
Передача движения: Движения из одного видео можно применять к другим объектам на статичных изображениях, например, переносить движения головы человека на макаку, создавая эффект марионетки.

Оценка эффективности

Обширные тесты и исследования с участием людей показали, что модель Motion Prompting превосходит последние методы, такие как Image Conductor и DragAnything, по качеству изображения и точности движения. Участники отдавали предпочтение видео, созданным с помощью новой модели, за лучшее соответствие движениям, реалистичность и высокое качество.

Ограничения и перспективы

Иногда модель может выдавать неестественные артефакты, например, растягивание объектов при ошибочном «закреплении» частей к фону. Тем не менее, такие ошибки помогают лучше понять, как модель воспринимает физический мир. Это исследование является важным шагом к созданию интерактивных и контролируемых генеративных моделей видео, которые могут стать стандартом в AI-видеопроизводстве.

Дополнительная информация

Подробности можно найти в статье и на странице проекта. Подписывайтесь на исследователей в Twitter и присоединяйтесь к сообществам, чтобы быть в курсе новинок.