NVIDIA Представляет Audio Flamingo 3: Прорывной Открытый Модель Аудио Общего Интеллекта
NVIDIA выпустила Audio Flamingo 3 — открытую модель, которая выводит понимание и анализ звуков искусственным интеллектом на новый уровень, охватывая речь, фоновый шум и музыку на длительных аудио.
Представляем Audio Flamingo 3
NVIDIA выпустила Audio Flamingo 3 (AF3), новаторскую открытую модель большого аудио-языкового формата, которая значительно продвигает способы понимания и анализа звука искусственным интеллектом. В отличие от предыдущих моделей, ограниченных распознаванием речи или базовой классификацией звуков, AF3 осмысливает аудио в богатом, человекоподобном контексте — включая речь, окружающие звуки и музыку на протяжении длительного времени.
Ключевые инновации Audio Flamingo 3
AF-Whisper: Унифицированный аудио энкодер
В основе AF3 лежит AF-Whisper, новый энкодер, адаптированный с Whisper-v3. Этот унифицированный энкодер обрабатывает речь, фоновые звуки и музыку с помощью единой архитектуры, устраняя несоответствия ранних моделей, использовавших отдельные энкодеры. Он использует датасеты с аудио-подписями и синтезированные метаданные в плотном 1280-мерном пространстве для согласования звуковых и текстовых представлений.
Цепочка рассуждений для аудио
AF3 внедряет возможность рассуждений по требованию с помощью датасета AF-Think, содержащего 250 000 примеров. Это позволяет модели выполнять цепочку рассуждений, объясняя свои шаги до получения ответа — важный шаг к прозрачному и понятному аудио ИИ.
Многоходовые, мультимодальные аудио диалоги
Обученный на AF-Chat (75 000 диалогов), AF3 поддерживает контекстные беседы с несколькими аудио-входами в течение нескольких ходов. Он имитирует естественные человеческие взаимодействия, ссылаясь на предыдущие звуковые сигналы, а также поддерживает голосовой диалог с помощью потокового модуля преобразования текста в речь.
Анализ длинных аудио
AF3 — первая полностью открытая модель, способная анализировать аудио длительностью до 10 минут. Используя датасет LongAudio-XL с 1,25 миллиона примеров, модель решает сложные задачи, такие как конспектирование встреч, понимание подкастов, обнаружение сарказма и временное позиционирование.
Рекордные показатели и практическое применение
Audio Flamingo 3 превосходит как открытые, так и закрытые модели на более чем 20 тестах, включая:
- Средняя точность MMAU: 73,14% (+2,14% по сравнению с Qwen2.5-O)
- LongAudioBench: 68,6 (оценка GPT-4o), опережая Gemini 2.5 Pro
- LibriSpeech ASR WER: 1,57%, лучше чем Phi-4-mm
- ClothoAQA: 91,1% (против 89,2% у Qwen2.5-O)
Модель также улучшила показатели в голосовом чате и генерации речи, снизив задержку генерации до 5,94 секунды против 14,62 секунды у Qwen2.5 и повысив показатели сходства.
Данные и открытый доступ
NVIDIA переработала датасеты, полностью открыв:
- AudioSkills-XL: 8 миллионов примеров, объединяющих рассуждения о фоновом звуке, музыке и речи.
- LongAudio-XL: Длинные аудио из аудиокниг, подкастов и встреч.
- AF-Think: Датасет для цепочечных рассуждений.
- AF-Chat: Для многоходовых, мультимодальных диалогов.
Все датасеты, веса модели, обучающие скрипты и код инференса доступны в открытом доступе, что способствует воспроизводимости и развитию исследований в области аудиторного ИИ и мультимодального взаимодействия.
Шаг к общему аудио интеллекту
Audio Flamingo 3 устанавливает новый стандарт глубокого понимания звука, объединяя масштаб, инновационные методы обучения и разнообразие данных. Эта модель слушает, понимает и рассуждает о звуке так, как ранее было невозможно, приближая нас к настоящему аудио общему интеллекту.
Ознакомьтесь с исследовательской работой, кодом и моделью на Hugging Face, чтобы узнать больше об этом достижении.
Switch Language
Read this article in English