StepFun AI представила Step-Audio 2 Mini — открытая 8B модель речи, обгоняющая GPT-4o-Audio

сентября 1, 2025 · 3 min

Кратко о релизе

StepFun AI выпустила Step-Audio 2 Mini, открытую модель преобразования речи в речь с 8 миллиардами параметров под лицензией Apache 2.0. Модель объединяет сильные возможности текстового рассуждения с детализированной генерацией аудио, обеспечивая выразительное, обоснованное и интерактивное воспроизведение речи. Step-Audio 2 Mini показывает передовые результаты в задачах распознавания речи, понимания аудио, перевода речи и диалогов, опережая коммерческие системы, включая GPT-4o-Audio.

Единая токенизация аудио и текста

Вместо каскадной схемы ASR+LLM+TTS модель использует мультиформатную дискретную токенизацию, где текстовые и аудио-токены идут в одном потоке моделирования. Такая унификация позволяет выполнять сквозное межмодальное рассуждение, переключать голос и стиль на лету во время инференса и обеспечивать согласованность семантики, просодии и эмоциональной окраски.

Выразительная генерация, чувствительная к эмоциям

Step-Audio 2 умеет захватывать паралингвистические признаки: высоту тона, ритм, тембр, эмоции и стиль речи. Она не просто транскрибирует, а интерпретирует и генерирует естественные эмоциональные оттенки, такие как шепот, печаль или восторг. На бенчмарке StepEval-Audio-Paralinguistic модель достигает 83.1% точности, что заметно выше, чем у GPT-4o Audio (43.5%) и Qwen-Omni (44.2%).

Retrieval-augmented генерация речи

Модель поддерживает мультимодальную RAG (retrieval-augmented generation). Интегрирована веб-поисковая подложка для фактического обоснования и добавлен аудиопоиск, который извлекает реальные образцы голосов из большой библиотеки и встраивает их в ответы. Это позволяет подражать тембру и стилю реальных голосов при инференсе.

Вызов инструментов и мультимодальное рассуждение

Step-Audio 2 выходит за рамки синтеза: модель поддерживает вызов внешних инструментов. Она сравнима с текстовыми LLM по выбору инструментов и точности параметров и при этом превосходит их в вызовах инструментов аудиопоиска, чего нет в чисто текстовых моделях. Это расширяет области применения в сценариях, требующих внешних запросов, взаимодействия с инструментами и мультимодального принятия решений.

Масштаб обучения и данные

Модель обучена на масштабном корпусе: 1.356 трлн токенов текста и аудио, более 8 млн часов реального и синтетического аудио, и примерно 50 тыс. уникальных голосов на разных языках и диалектах. Предтренировка проходила в несколько этапов с курсом задач ASR, TTS, перевода речи и синтеза разговоров с метками эмоций. Step-Audio 2 Mini опирается на Qwen2-Audio для языковых рассуждений и CosyVoice для токенизации, что обеспечивает сочетание сильного понимания текста и детального управления звуком.

Результаты на бенчмарках

Распознавание речи (ASR)

Английский: средний WER 3.14%, лучше GPT-4o Transcribe с примерно 4.5%.
Китайский: средний CER 3.08%, заметно ниже GPT-4o и Qwen-Omni.

Понимание аудио (MMAU)

Step-Audio 2: средний балл 78.0, опережая Omni-R1 с 77.0 и Audio Flamingo 3 с 73.1, особенно сильна в задачах звукового и речевого рассуждения.

Перевод речи

CoVoST 2 (S2TT): BLEU 39.26, лучший среди открытых и закрытых моделей.
CVSS (S2ST): BLEU 30.87, опережает GPT-4o с 23.68.

Диалоги (URO-Bench)

Китайские диалоги: высокие показатели 83.3 (basic) и 68.2 (pro).
Английские диалоги: близки к GPT-4o, 83.9 против 84.5.

Значение для разработчиков и исследователей

Step-Audio 2 Mini делает передовые мультимодальные аудиотехнологии доступными в рамках открытой лицензии. Унифицированная токенизация, эмоционально-чувствительная генерация, RAG-обоснование и поддержка инструментов дают разработчикам и исследователям гибкий инструмент для создания реалистичных, управляемых и фактически обоснованных голосовых интерфейсов. Модель, статья и веса доступны на Hugging Face для испытаний и интеграции.

Полезные ссылки