<НА ГЛАВНУЮ

NVIDIA представляет Audio-SDS: революция в аудиосинтезе и разделении источников с помощью диффузионных моделей

NVIDIA и MIT представляют Audio-SDS — новый фреймворк, применяющий Score Distillation Sampling к аудиодиффузионным моделям для синтеза и разделения аудио без специализированных датасетов.

Объединение генеративных моделей с параметрическим аудиосинтезом

Аудиодиффузионные модели достигли значительных успехов в генерации высококачественной речи, музыки и звуков фоли. Однако их основная сила заключается в создании образцов, а не в оптимизации параметров, управляющих характеристиками звука. Задачи, такие как физически обоснованное создание ударных звуков или разделение источников по подсказкам, требуют моделей, способных настраивать явные и интерпретируемые параметры с учетом структурных ограничений. Score Distillation Sampling (SDS) — метод, который продвинул текст-в-3D и редактирование изображений через обратное распространение градиентов по предобученным диффузионным приорам — до сих пор не применялся к аудио. Адаптация SDS к аудиодиффузии позволяет оптимизировать параметрические аудиопредставления без необходимости собирать большие специализированные датасеты, объединяя современные генеративные модели с классическим параметрическим синтезом.

Использование классических аудиотехник и диффузионных приоров

Традиционные методы аудио, такие как частотная модуляция (FM) — использующая операторно-модулированные осцилляторы для создания богатых тембров — и физически основанные симуляторы ударных звуков, предлагают компактные и интерпретируемые пространства параметров. Между тем, разделение источников эволюционировало от матричной факторизации к нейронным и текстовым методам, позволяющим выделять вокал или инструменты. Интеграция обновлений SDS с предобученными аудиодиффузионными моделями позволяет оптимизировать параметры FM, симуляторов ударных звуков или маски разделения напрямую из высокоуровневых подсказок. Такой подход сочетает интерпретируемость обработки сигналов с гибкостью современных диффузионных генераторов.

Представляем Audio-SDS: единый фреймворк

Исследователи из NVIDIA и MIT представили Audio-SDS — расширение SDS для текстово-условных аудиодиффузионных моделей. Audio-SDS использует одну предобученную модель для выполнения различных аудиозадач без необходимости специализированных датасетов. Дистилляция генеративных приоров в параметрические аудиопредставления облегчает задачи имитации ударных звуков, настройки параметров FM-синтеза и разделения источников. Фреймворк объединяет данные и явное управление параметрами, создавая аудио с высокой воспринимаемой реалистичностью. Ключевые улучшения включают стабильный декодер-базированный SDS, многократное денойзинг и мультимасштабный спектрограмма для улучшения высокочастотных деталей и реализма.

Технические инновации и применения

В исследовании описывается применение SDS к аудиодиффузионным моделям, вдохновленное DreamFusion. SDS генерирует стереозвук через функцию рендеринга, повышая производительность за счет обхода градиентов энкодера и концентрации на декодированном аудио. Метод оптимизирован тремя улучшениями: избежание нестабильности энкодера, акцент на спектрограммных признаках для выделения высокочастотных деталей и использование многократного денойзинга для стабильности. Audio-SDS демонстрирует универсальность на задачах FM-синтеза, создания ударных звуков и разделения источников. Эти примеры показывают, как SDS адаптируется к различным аудиодоменам без дообучения, обеспечивая высокое качество и соответствие текстовым подсказкам.

Оценка производительности

Производительность Audio-SDS была проверена на задачах FM-синтеза, имитации ударных звуков и разделения источников. Эксперименты включали субъективные прослушивания и объективные метрики, такие как CLAP score, расстояние до эталона и отношение сигнал/искажение (SDR). Для задач использовались предобученные модели, например Stable Audio Open checkpoint. Результаты показали значительные улучшения в синтезе и разделении аудио с четким соответствием текстовым подсказкам.

Audio-SDS открывает перспективы для аудиогенерации, объединяя данные и явное управление параметрами, что устраняет потребность в больших специализированных датасетах и расширяет возможности мультимодальных исследований в аудио.

🇬🇧

Switch Language

Read this article in English

Switch to English