NVIDIA Представляет Audio Flamingo 3: Прорывной Открытый Модель Аудио Общего Интеллекта

Представляем Audio Flamingo 3

NVIDIA выпустила Audio Flamingo 3 (AF3), новаторскую открытую модель большого аудио-языкового формата, которая значительно продвигает способы понимания и анализа звука искусственным интеллектом. В отличие от предыдущих моделей, ограниченных распознаванием речи или базовой классификацией звуков, AF3 осмысливает аудио в богатом, человекоподобном контексте — включая речь, окружающие звуки и музыку на протяжении длительного времени.

Ключевые инновации Audio Flamingo 3

AF-Whisper: Унифицированный аудио энкодер

В основе AF3 лежит AF-Whisper, новый энкодер, адаптированный с Whisper-v3. Этот унифицированный энкодер обрабатывает речь, фоновые звуки и музыку с помощью единой архитектуры, устраняя несоответствия ранних моделей, использовавших отдельные энкодеры. Он использует датасеты с аудио-подписями и синтезированные метаданные в плотном 1280-мерном пространстве для согласования звуковых и текстовых представлений.

Цепочка рассуждений для аудио

AF3 внедряет возможность рассуждений по требованию с помощью датасета AF-Think, содержащего 250 000 примеров. Это позволяет модели выполнять цепочку рассуждений, объясняя свои шаги до получения ответа — важный шаг к прозрачному и понятному аудио ИИ.

Многоходовые, мультимодальные аудио диалоги

Обученный на AF-Chat (75 000 диалогов), AF3 поддерживает контекстные беседы с несколькими аудио-входами в течение нескольких ходов. Он имитирует естественные человеческие взаимодействия, ссылаясь на предыдущие звуковые сигналы, а также поддерживает голосовой диалог с помощью потокового модуля преобразования текста в речь.

Анализ длинных аудио

AF3 — первая полностью открытая модель, способная анализировать аудио длительностью до 10 минут. Используя датасет LongAudio-XL с 1,25 миллиона примеров, модель решает сложные задачи, такие как конспектирование встреч, понимание подкастов, обнаружение сарказма и временное позиционирование.

Рекордные показатели и практическое применение

Audio Flamingo 3 превосходит как открытые, так и закрытые модели на более чем 20 тестах, включая:

Средняя точность MMAU: 73,14% (+2,14% по сравнению с Qwen2.5-O)
LongAudioBench: 68,6 (оценка GPT-4o), опережая Gemini 2.5 Pro
LibriSpeech ASR WER: 1,57%, лучше чем Phi-4-mm
ClothoAQA: 91,1% (против 89,2% у Qwen2.5-O)

Модель также улучшила показатели в голосовом чате и генерации речи, снизив задержку генерации до 5,94 секунды против 14,62 секунды у Qwen2.5 и повысив показатели сходства.

Данные и открытый доступ

NVIDIA переработала датасеты, полностью открыв:

AudioSkills-XL: 8 миллионов примеров, объединяющих рассуждения о фоновом звуке, музыке и речи.
LongAudio-XL: Длинные аудио из аудиокниг, подкастов и встреч.
AF-Think: Датасет для цепочечных рассуждений.
AF-Chat: Для многоходовых, мультимодальных диалогов.

Все датасеты, веса модели, обучающие скрипты и код инференса доступны в открытом доступе, что способствует воспроизводимости и развитию исследований в области аудиторного ИИ и мультимодального взаимодействия.

Шаг к общему аудио интеллекту

Audio Flamingo 3 устанавливает новый стандарт глубокого понимания звука, объединяя масштаб, инновационные методы обучения и разнообразие данных. Эта модель слушает, понимает и рассуждает о звуке так, как ранее было невозможно, приближая нас к настоящему аудио общему интеллекту.

Ознакомьтесь с исследовательской работой, кодом и моделью на Hugging Face, чтобы узнать больше об этом достижении.