Meta AI представила SAM Audio: революционная аудиосепарация

Обзор

Meta представила SAM Audio — модель разделения аудио, основанную на подсказках, которая решает компактную задачу редактирования: изоляцию одного звука из реальной смеси без создания кастомной модели для каждого звукового класса. Meta выпустила три основных размера: sam-audio-small, sam-audio-base и sam-audio-large. Модель доступна для скачивания и экспериментов в Segment Anything Playground.

Архитектура

SAM Audio использует отдельные энкодеры для каждого сигнала кондиционирования, включая:

Аудио энкодер для смеси
Текстовый энкодер для описаний на естественном языке
Энкодер временного диапазона для указателей времени
Визуальный энкодер, который обрабатывает визуальную подсказку, основанную на видео и маске объекта.

Энкодированные потоки конкатенируются в временно согласованные признаки, обрабатываются с помощью диффузионного трансформера, который применяет самовнимание к временной согласованной репрезентации и перекрестное внимание к текстовому признаку. В конечном итоге DACVAE декодер реконструирует волновые формы, выдавая два вывода: целевое аудио и остаточное аудио.

Функциональность SAM Audio

SAM Audio принимает входную запись, содержащую несколько перекрывающихся источников — например, речь, трафик и музыку — и разделяет целевой источник на основе подсказки. В публичном API вывода модель получает два вывода: result.target (изолированный звук) и result.residual (все остальное).

Интерфейс целевой и остаточной аудио соответствует обычным редакторским операциям. Например, если вы хотите удалить лай собаки из подкаста, рассматривайте лай как цель, оставляя только остаток. В тем время, если вам нужно извлечь гитарную партию из концертного клипа, удерживайте целевую волну.

Поддерживаемые Типы Подсказок

Meta позиционирует SAM Audio как унифицированную модель, поддерживающую три типа подсказок, которые могут использоваться по отдельности или в комбинации:

Текстовые подсказки: Опишите звук на естественном языке (например, "лай собаки", "пение").
Визуальные подсказки: Выберите человека или объект в видео, чтобы изолировать звук, связанный с этим визуальным элементом.
Подсказки временного диапазона: Укажите временные сегменты, где присутствует целевой звук, что позволяет корректировать отделение и предотвращать «пересечение» в неоднозначных контекстах.

Показатели Производительности

Модель SAM Audio демонстрирует передовую производительность в различных реальных сценариях, представляя собой унифицированную альтернативу специализированным аудиоинструментам. Команда исследований предоставляет таблицу субъективной оценки для различных категорий:

Общая: 3.62 (small), 3.28 (base), 3.50 (large)
Инструменты (профессиональные): 4.49 (large)

Основные Выводы

Унифицированная Модель: SAM Audio сегментирует звуки из сложных смесей, используя текстовые, визуальные и временные подсказки.
Структура Вывода: Основное API производит target для изолированного звука и residual для всего остального, что удобно для задач, таких как удаление шума или извлечение семян.
Несколько Вариантов: Включает sam-audio-small, sam-audio-base и sam-audio-large, с дополнительными вариантами tv, которые обеспечивают лучшую производительность для визуального запроса.
Дополнительно к Выдаче: Релиз предлагает модель sam-audio-judge, которая оценивает результаты разделения по сравнению с текстовым описанием на основе качества, точности, охвата и надежности.