Samsung представила ANSE: умный выбор шума для улучшения моделей текст-видео на основе внимания

Развитие генерации видео из текста с помощью диффузионных моделей

Модели текст-видео (T2V) преобразуют текстовые запросы в детализированные видео, начиная с гауссовского шума и постепенно улучшая его до качественных кадров, которые соответствуют смыслу и визуально привлекательны. Несмотря на инновации, такие как латентные диффузионные модели и модули внимания с учетом движения, проблема непредсказуемого качества видео из-за случайного начального шума сохраняется.

Проблема выбора начального шума

Начальный шум существенно влияет на качество видео, согласованность во времени и точность соответствия запросу. Существующие методы, например FreeInit, FreqPrior и PYoCo, используют ручные шумовые приоритеты или внешние фильтры, что требует больших вычислительных ресурсов и плохо масштабируется. Они также не используют внутренние сигналы модели, которые могли бы помочь выбрать лучшие шумовые семена.

Введение ANSE: Активный выбор шума для генерации

Samsung Research разработала ANSE — инновационный фреймворк, который использует внутренние механизмы внимания модели для эффективного выбора шумовых семян. Ключевой компонент BANSA (Bayesian Active Noise Selection via Attention) оценивает согласованность и уверенность карт внимания на ранних этапах денойзинга с помощью стохастического метода Бернулли-маскированного внимания. Это позволяет вводить случайность прямо в вычисления внимания без множества полных проходов, что снижает вычислительную нагрузку.

Принцип работы BANSA

BANSA измеряет энтропию в картах внимания для оценки неопределенности. Исследователи выделили конкретные слои модели (слой 14 для CogVideoX-2B и слой 19 для CogVideoX-5B), где этот показатель хорошо коррелирует с полной оценкой неопределенности, что позволяет эффективно вычислять метрику. Балл BANSA вычисляется как сравнение средней энтропии отдельных карт с энтропией их среднего значения; низкий балл указывает на высокую согласованность и уверенность внимания, что предсказывает лучшее качество видео. ANSE выбирает шумовое семя с минимальным баллом BANSA из пула кандидатов, улучшая результаты без необходимости дообучения модели или использования внешних приоритетов.

Результаты и эффективность

Для модели CogVideoX-2B ANSE повысила общий балл VBench с 81.03 до 81.66, с заметным улучшением качества (+0.48) и семантического соответствия (+1.23). Для более крупной CogVideoX-5B улучшение составило с 81.52 до 81.71, с приростом +0.17 по качеству и +0.60 по семантике. При этом увеличение времени инференса было всего 8.68% и 13.78% соответственно, что намного эффективнее предыдущих методов, требующих более чем вдвое больше ресурсов. Качественные оценки показали улучшение четкости, семантической согласованности и реалистичности движения.

Сравнительный анализ и выводы

BANSA превзошла случайный и основанный на энтропии выбор шумовых семян. Производительность достигала максимума при 10 стохастических проходах и размере пула кандидатов 10. Преднамеренный выбор семян с высоким баллом BANSA ухудшал качество, подтверждая достоверность метрики. Хотя ANSE не меняет сам процесс генерации, она является практичной альтернативой ресурсоемким методам.

Перспективы развития

Исследователи предлагают дальнейшее улучшение через интеграцию информационно-теоретических методов и стратегий активного обучения. Дизайн ANSE сочетает эффективность и качество, делая его перспективным инструментом для масштабируемого улучшения текст-видео синтеза.

Основные выводы

ANSE значительно улучшает VBench на моделях CogVideoX.
Значительные приросты качества и семантики при минимальном увеличении времени инференса.
BANSA использует Бернулли-маскированное внимание для точной оценки неопределенности.
Выбор слоев снижает вычислительную нагрузку.
ANSE эффективнее существующих методов выбора шума.
Низкие баллы BANSA надежно предсказывают лучшее качество видео.

Это исследование предлагает модельно-ориентированный подход к выбору шума, повышающий качество и стабильность генерации видео с помощью оценки неопределенности внимания в диффузионных моделях.