USE-DDP: двухветвевой энкодер‑декодер для шумоподавления, обучаемый на непарных данных

октября 5, 2025 · 3 min

Какая задача решается?

Большинство методов шумоподавления используют пары «чистая‑шумная» запись, которые трудно собрать в реальных условиях. USE-DDP (Unsupervised Speech Enhancement using Data-defined Priors) предлагает обучать модель лишь на непарных корпусах чистой речи и шума. Группа из Brno University of Technology и Johns Hopkins University показывает, как разделить смесь на оценённую чистую речь и остаточный шум без доступа к парным данным.

Архитектура модели

Генератор напоминает нейронный аудиокодек: энкодер сжимает входной сигнал в последовательность латентов, которая затем распадается на два параллельных трансформер‑ветви (RoFormer). Одна ветвь предсказывает чистую речь, другая — шум. Общий декодер восстанавливает две волновые формы. Требование восстановления достигается через сумму двух выходов, совпадающую с исходной смесью с компенсирующими скалярами α и β для выравнивания амплитуды.

Обучение и априоры

Ключевое ограничение — консистентность реконструкции: оценённые речь и шум должны в сумме давать наблюдаемую смесь. Используются многомасштабные мел‑ и STFT‑функции потерь, а также SI‑SDR, как в нейронных аудиокодеках.

Априоры реализованы тремя ансамблями дискриминаторов — для чистой речи, для шума и для шумной смеси. Каждый дискриминатор налагает распределительные ограничения с помощью LS‑GAN и feature‑matching потерь: выход чистой ветви должен походить на чистую речевую базу, шумовая ветвь — на шумовую базу, а реконструированная смесь должна выглядеть естественно.

Инициализация и практические хитрости

Инициализация энкодера и декодера из предобученного Descript Audio Codec заметно улучшает сходимость и качество по сравнению с обучением с нуля. Это практический приём, который стабилизирует процесс обучения.

Результаты и сравнения

На имитационной связке VCTK+DEMAND USE-DDP показывает паритет с сильными несупервизируемыми базами (например, unSE/unSE+ на основе optimal transport). DNSMOS улучшается с 2.54 (шумный вход) примерно до 3.03, PESQ — с ~1.97 до ~2.47. По CBAK метод отстаёт от некоторых конкурентов из‑за более агрессивного подавления в несречевых сегментах — это следствие явного априора шума.

Влияние выбора априора

Критический вывод работы — выбор корпуса чистой речи существенно влияет на результаты. Использование in‑domain приора (VCTK для VCTK+DEMAND) даёт лучшие показатели, но при этом частично «подглядывает» под распределение, использованное для синтеза смесей, что может привести к завышенным результатам в симуляциях. Out‑of‑domain приор снижает метрики (PESQ примерно до 2.04), а также может допускать утечку шума в ветвь чистой речи.

На реальных данных CHiME-3 использование close‑talk канала в роли «чистого» приора существенно ухудшает результат из‑за наложения окружения в эталоне; в некоторых случаях более чистый out‑of‑domain корпус даёт лучшие DNSMOS/UTMOS на dev/test, но с компромиссом в разборчивости при сильном подавлении.

Итоговое значение

USE-DDP переводит задачу улучшения речи в явное оценивание двух источников с априорами, заданными данными, и избегает оптимизации под конкретный метрический критерий. Комбинация реконструктивного ограничения и дискриминативных априоров создаёт понятный индуктивный сдвиг, а кодек‑инициализация — практический способ стабилизации обучения. Но при описании достигнутых результатов важно указывать выбор корпуса приора, поскольку он существенно меняет выводы.

Полная статья доступна на https://arxiv.org/pdf/2509.22942. Авторы также публикуют код и руководства по применению в сопутствующих репозиториях.