HunyuanCustom: революция в создании дипфейк-видео с одним изображением и синхронизацией губ с аудио

Обзор HunyuanCustom

Tencent представила HunyuanCustom — новую версию модели Hunyuan Video, которая позволяет создавать дипфейк-видео, используя всего одно изображение. Эта мультимодальная система поддерживает кастомизацию видео с синхронизированным аудио и движением губ, что призвано заменить необходимость в нескольких изображениях или сложной донастройке, такой как LoRA.

Генерация видео с одного изображения

HunyuanCustom способна создавать видео на основе одного референтного изображения и текстового запроса. Система интерпретирует запрос, сохраняя идентичность субъекта на исходном изображении. Тем не менее, модель ограничена в случае поворота лица более чем на 20-25 градусов или при изменении выражения лица, так как опирается только на фронтальное изображение.

Интеграция аудио и синхронизации губ

Модель использует систему LatentSync для создания движений губ, синхронизированных с предоставленным аудио и текстом. Это позволяет персонажам в видео говорить в такт аудио, повышая реализм. Примеры демонстрируют высокое качество синхронизации, хотя англоязычные демо пока не распространены.

Редактирование видео по видео

HunyuanCustom поддерживает vid2vid-редактирование, при котором сегмент существующего видео можно замаскировать и заменить, используя одно референтное изображение. Это обеспечивает целенаправленную замену объектов без необходимости пересоздавать весь видеоряд, расширяя возможности редактирования.

Технические инновации и обучение

Система является донастройкой базовой модели HunyuanVideo (выпущенной в декабре 2024 года), внедряя новые архитектурные решения, а не создавая модель с нуля. Используется сложный конвейер обработки данных с соблюдением GDPR, включающий различные датасеты, сегментацию, аннотирование и фильтрацию качества видео. Обучение проводится с помощью Flow Matching, комбинируя эмбеддинги изображения и текста через LLaVA для согласованной мультимодальной генерации.

Производительность и сравнения

В обширных тестах по сравнению с коммерческими и открытыми решениями HunyuanCustom показала лучшую идентичность и согласованность субъектов, сопоставимое соответствие текста и видео, а также высокую временную стабильность. Модель превосходит конкурентов в задачах с несколькими субъектами и аудио-управляемой кастомизации.

Доступность и перспективы

Код и веса доступны на GitHub, сейчас система ориентирована на Linux и требует значительный объем видеопамяти (минимум 24 ГБ, рекомендуется 80 ГБ). Демо-версия доступна через API, но требует доступа через WeChat. Ожидается, что сообщество адаптирует модель для более удобного использования и поддержки Windows.

Итог

HunyuanCustom представляет значительный прорыв в технологиях дипфейк-видео, позволяя создавать видео с одного изображения с синхронизацией губ и гибким редактированием. Высокие показатели по сравнению с ведущими моделями обещают перспективное будущее для доступной и качественной генерации кастомизированных видео.