StepFun AI представила Step-Audio 2 Mini — открытая 8B модель речи, обгоняющая GPT-4o-Audio

Кратко о релизе

StepFun AI выпустила Step-Audio 2 Mini, открытую модель преобразования речи в речь с 8 миллиардами параметров под лицензией Apache 2.0. Модель объединяет сильные возможности текстового рассуждения с детализированной генерацией аудио, обеспечивая выразительное, обоснованное и интерактивное воспроизведение речи. Step-Audio 2 Mini показывает передовые результаты в задачах распознавания речи, понимания аудио, перевода речи и диалогов, опережая коммерческие системы, включая GPT-4o-Audio.

Единая токенизация аудио и текста

Вместо каскадной схемы ASR+LLM+TTS модель использует мультиформатную дискретную токенизацию, где текстовые и аудио-токены идут в одном потоке моделирования. Такая унификация позволяет выполнять сквозное межмодальное рассуждение, переключать голос и стиль на лету во время инференса и обеспечивать согласованность семантики, просодии и эмоциональной окраски.

Выразительная генерация, чувствительная к эмоциям

Step-Audio 2 умеет захватывать паралингвистические признаки: высоту тона, ритм, тембр, эмоции и стиль речи. Она не просто транскрибирует, а интерпретирует и генерирует естественные эмоциональные оттенки, такие как шепот, печаль или восторг. На бенчмарке StepEval-Audio-Paralinguistic модель достигает 83.1% точности, что заметно выше, чем у GPT-4o Audio (43.5%) и Qwen-Omni (44.2%).

Retrieval-augmented генерация речи

Модель поддерживает мультимодальную RAG (retrieval-augmented generation). Интегрирована веб-поисковая подложка для фактического обоснования и добавлен аудиопоиск, который извлекает реальные образцы голосов из большой библиотеки и встраивает их в ответы. Это позволяет подражать тембру и стилю реальных голосов при инференсе.

Вызов инструментов и мультимодальное рассуждение

Step-Audio 2 выходит за рамки синтеза: модель поддерживает вызов внешних инструментов. Она сравнима с текстовыми LLM по выбору инструментов и точности параметров и при этом превосходит их в вызовах инструментов аудиопоиска, чего нет в чисто текстовых моделях. Это расширяет области применения в сценариях, требующих внешних запросов, взаимодействия с инструментами и мультимодального принятия решений.

Масштаб обучения и данные

Модель обучена на масштабном корпусе: 1.356 трлн токенов текста и аудио, более 8 млн часов реального и синтетического аудио, и примерно 50 тыс. уникальных голосов на разных языках и диалектах. Предтренировка проходила в несколько этапов с курсом задач ASR, TTS, перевода речи и синтеза разговоров с метками эмоций. Step-Audio 2 Mini опирается на Qwen2-Audio для языковых рассуждений и CosyVoice для токенизации, что обеспечивает сочетание сильного понимания текста и детального управления звуком.

Результаты на бенчмарках

Распознавание речи (ASR)

Понимание аудио (MMAU)

Перевод речи

Диалоги (URO-Bench)

Значение для разработчиков и исследователей

Step-Audio 2 Mini делает передовые мультимодальные аудиотехнологии доступными в рамках открытой лицензии. Унифицированная токенизация, эмоционально-чувствительная генерация, RAG-обоснование и поддержка инструментов дают разработчикам и исследователям гибкий инструмент для создания реалистичных, управляемых и фактически обоснованных голосовых интерфейсов. Модель, статья и веса доступны на Hugging Face для испытаний и интеграции.

Полезные ссылки