Meta AI представила SAM Audio: революционная аудиосепарация
Изучите SAM Audio, унифицированную модель для разделения аудио из сложных смесей с помощью интуитивных подсказок.
Обзор
Meta представила SAM Audio — модель разделения аудио, основанную на подсказках, которая решает компактную задачу редактирования: изоляцию одного звука из реальной смеси без создания кастомной модели для каждого звукового класса. Meta выпустила три основных размера: sam-audio-small, sam-audio-base и sam-audio-large. Модель доступна для скачивания и экспериментов в Segment Anything Playground.
Архитектура
SAM Audio использует отдельные энкодеры для каждого сигнала кондиционирования, включая:
- Аудио энкодер для смеси
- Текстовый энкодер для описаний на естественном языке
- Энкодер временного диапазона для указателей времени
- Визуальный энкодер, который обрабатывает визуальную подсказку, основанную на видео и маске объекта.
Энкодированные потоки конкатенируются в временно согласованные признаки, обрабатываются с помощью диффузионного трансформера, который применяет самовнимание к временной согласованной репрезентации и перекрестное внимание к текстовому признаку. В конечном итоге DACVAE декодер реконструирует волновые формы, выдавая два вывода: целевое аудио и остаточное аудио.
Функциональность SAM Audio
SAM Audio принимает входную запись, содержащую несколько перекрывающихся источников — например, речь, трафик и музыку — и разделяет целевой источник на основе подсказки. В публичном API вывода модель получает два вывода: result.target (изолированный звук) и result.residual (все остальное).
Интерфейс целевой и остаточной аудио соответствует обычным редакторским операциям. Например, если вы хотите удалить лай собаки из подкаста, рассматривайте лай как цель, оставляя только остаток. В тем время, если вам нужно извлечь гитарную партию из концертного клипа, удерживайте целевую волну.
Поддерживаемые Типы Подсказок
Meta позиционирует SAM Audio как унифицированную модель, поддерживающую три типа подсказок, которые могут использоваться по отдельности или в комбинации:
- Текстовые подсказки: Опишите звук на естественном языке (например, "лай собаки", "пение").
- Визуальные подсказки: Выберите человека или объект в видео, чтобы изолировать звук, связанный с этим визуальным элементом.
- Подсказки временного диапазона: Укажите временные сегменты, где присутствует целевой звук, что позволяет корректировать отделение и предотвращать «пересечение» в неоднозначных контекстах.
Показатели Производительности
Модель SAM Audio демонстрирует передовую производительность в различных реальных сценариях, представляя собой унифицированную альтернативу специализированным аудиоинструментам. Команда исследований предоставляет таблицу субъективной оценки для различных категорий:
- Общая: 3.62 (small), 3.28 (base), 3.50 (large)
- Инструменты (профессиональные): 4.49 (large)
Основные Выводы
- Унифицированная Модель: SAM Audio сегментирует звуки из сложных смесей, используя текстовые, визуальные и временные подсказки.
- Структура Вывода: Основное API производит
targetдля изолированного звука иresidualдля всего остального, что удобно для задач, таких как удаление шума или извлечение семян. - Несколько Вариантов: Включает
sam-audio-small,sam-audio-baseиsam-audio-large, с дополнительными вариантамиtv, которые обеспечивают лучшую производительность для визуального запроса. - Дополнительно к Выдаче: Релиз предлагает модель
sam-audio-judge, которая оценивает результаты разделения по сравнению с текстовым описанием на основе качества, точности, охвата и надежности.
Switch Language
Read this article in English