Samsung представила ANSE: умный выбор шума для улучшения моделей текст-видео на основе внимания
Samsung Research разработала ANSE — метод активного выбора шума на основе внимания для улучшения качества и согласованности видео в моделях текст-видео с минимальными затратами вычислений.
Развитие генерации видео из текста с помощью диффузионных моделей
Модели текст-видео (T2V) преобразуют текстовые запросы в детализированные видео, начиная с гауссовского шума и постепенно улучшая его до качественных кадров, которые соответствуют смыслу и визуально привлекательны. Несмотря на инновации, такие как латентные диффузионные модели и модули внимания с учетом движения, проблема непредсказуемого качества видео из-за случайного начального шума сохраняется.
Проблема выбора начального шума
Начальный шум существенно влияет на качество видео, согласованность во времени и точность соответствия запросу. Существующие методы, например FreeInit, FreqPrior и PYoCo, используют ручные шумовые приоритеты или внешние фильтры, что требует больших вычислительных ресурсов и плохо масштабируется. Они также не используют внутренние сигналы модели, которые могли бы помочь выбрать лучшие шумовые семена.
Введение ANSE: Активный выбор шума для генерации
Samsung Research разработала ANSE — инновационный фреймворк, который использует внутренние механизмы внимания модели для эффективного выбора шумовых семян. Ключевой компонент BANSA (Bayesian Active Noise Selection via Attention) оценивает согласованность и уверенность карт внимания на ранних этапах денойзинга с помощью стохастического метода Бернулли-маскированного внимания. Это позволяет вводить случайность прямо в вычисления внимания без множества полных проходов, что снижает вычислительную нагрузку.
Принцип работы BANSA
BANSA измеряет энтропию в картах внимания для оценки неопределенности. Исследователи выделили конкретные слои модели (слой 14 для CogVideoX-2B и слой 19 для CogVideoX-5B), где этот показатель хорошо коррелирует с полной оценкой неопределенности, что позволяет эффективно вычислять метрику. Балл BANSA вычисляется как сравнение средней энтропии отдельных карт с энтропией их среднего значения; низкий балл указывает на высокую согласованность и уверенность внимания, что предсказывает лучшее качество видео. ANSE выбирает шумовое семя с минимальным баллом BANSA из пула кандидатов, улучшая результаты без необходимости дообучения модели или использования внешних приоритетов.
Результаты и эффективность
Для модели CogVideoX-2B ANSE повысила общий балл VBench с 81.03 до 81.66, с заметным улучшением качества (+0.48) и семантического соответствия (+1.23). Для более крупной CogVideoX-5B улучшение составило с 81.52 до 81.71, с приростом +0.17 по качеству и +0.60 по семантике. При этом увеличение времени инференса было всего 8.68% и 13.78% соответственно, что намного эффективнее предыдущих методов, требующих более чем вдвое больше ресурсов. Качественные оценки показали улучшение четкости, семантической согласованности и реалистичности движения.
Сравнительный анализ и выводы
BANSA превзошла случайный и основанный на энтропии выбор шумовых семян. Производительность достигала максимума при 10 стохастических проходах и размере пула кандидатов 10. Преднамеренный выбор семян с высоким баллом BANSA ухудшал качество, подтверждая достоверность метрики. Хотя ANSE не меняет сам процесс генерации, она является практичной альтернативой ресурсоемким методам.
Перспективы развития
Исследователи предлагают дальнейшее улучшение через интеграцию информационно-теоретических методов и стратегий активного обучения. Дизайн ANSE сочетает эффективность и качество, делая его перспективным инструментом для масштабируемого улучшения текст-видео синтеза.
Основные выводы
- ANSE значительно улучшает VBench на моделях CogVideoX.
- Значительные приросты качества и семантики при минимальном увеличении времени инференса.
- BANSA использует Бернулли-маскированное внимание для точной оценки неопределенности.
- Выбор слоев снижает вычислительную нагрузку.
- ANSE эффективнее существующих методов выбора шума.
- Низкие баллы BANSA надежно предсказывают лучшее качество видео.
Это исследование предлагает модельно-ориентированный подход к выбору шума, повышающий качество и стабильность генерации видео с помощью оценки неопределенности внимания в диффузионных моделях.
Switch Language
Read this article in English