HunyuanCustom: революция в создании дипфейк-видео с одним изображением и синхронизацией губ с аудио
Tencent представила HunyuanCustom — систему для создания дипфейк-видео с одного изображения и синхронизированным аудио, превосходящую многие аналоги по качеству и возможностям редактирования.
Обзор HunyuanCustom
Tencent представила HunyuanCustom — новую версию модели Hunyuan Video, которая позволяет создавать дипфейк-видео, используя всего одно изображение. Эта мультимодальная система поддерживает кастомизацию видео с синхронизированным аудио и движением губ, что призвано заменить необходимость в нескольких изображениях или сложной донастройке, такой как LoRA.
Генерация видео с одного изображения
HunyuanCustom способна создавать видео на основе одного референтного изображения и текстового запроса. Система интерпретирует запрос, сохраняя идентичность субъекта на исходном изображении. Тем не менее, модель ограничена в случае поворота лица более чем на 20-25 градусов или при изменении выражения лица, так как опирается только на фронтальное изображение.
Интеграция аудио и синхронизации губ
Модель использует систему LatentSync для создания движений губ, синхронизированных с предоставленным аудио и текстом. Это позволяет персонажам в видео говорить в такт аудио, повышая реализм. Примеры демонстрируют высокое качество синхронизации, хотя англоязычные демо пока не распространены.
Редактирование видео по видео
HunyuanCustom поддерживает vid2vid-редактирование, при котором сегмент существующего видео можно замаскировать и заменить, используя одно референтное изображение. Это обеспечивает целенаправленную замену объектов без необходимости пересоздавать весь видеоряд, расширяя возможности редактирования.
Технические инновации и обучение
Система является донастройкой базовой модели HunyuanVideo (выпущенной в декабре 2024 года), внедряя новые архитектурные решения, а не создавая модель с нуля. Используется сложный конвейер обработки данных с соблюдением GDPR, включающий различные датасеты, сегментацию, аннотирование и фильтрацию качества видео. Обучение проводится с помощью Flow Matching, комбинируя эмбеддинги изображения и текста через LLaVA для согласованной мультимодальной генерации.
Производительность и сравнения
В обширных тестах по сравнению с коммерческими и открытыми решениями HunyuanCustom показала лучшую идентичность и согласованность субъектов, сопоставимое соответствие текста и видео, а также высокую временную стабильность. Модель превосходит конкурентов в задачах с несколькими субъектами и аудио-управляемой кастомизации.
Доступность и перспективы
Код и веса доступны на GitHub, сейчас система ориентирована на Linux и требует значительный объем видеопамяти (минимум 24 ГБ, рекомендуется 80 ГБ). Демо-версия доступна через API, но требует доступа через WeChat. Ожидается, что сообщество адаптирует модель для более удобного использования и поддержки Windows.
Итог
HunyuanCustom представляет значительный прорыв в технологиях дипфейк-видео, позволяя создавать видео с одного изображения с синхронизацией губ и гибким редактированием. Высокие показатели по сравнению с ведущими моделями обещают перспективное будущее для доступной и качественной генерации кастомизированных видео.
Switch Language
Read this article in English