StepFun представляет Step-Audio-AQAA: Полностью сквозная аудио-языковая модель для естественного голосового взаимодействия

Переосмысление аудио-взаимодействия между человеком и компьютером

Создание машин, которые могут отвечать на человеческую речь естественным и выразительным голосом, стало важной задачей в системах интеллектуального взаимодействия. Аудио-языковое моделирование объединяет распознавание речи, понимание естественного языка и генерацию аудио, позволяя машинам понимать и отвечать исключительно голосом, без промежуточного текста. Это важно для доступности, инклюзивности и создания более плавного, человекоподобного взаимодействия в голосовых помощниках, аудиорассказах и управлении без рук.

Ограничения каскадных речевых систем

Большинство современных систем используют цепочку отдельных модулей: преобразование речи в текст, обработка текста и синтез речи. Такая модульная архитектура приводит к накоплению ошибок, задержкам и ограниченной выразительности, что затрудняет выполнение сложных задач, например, эмоционального диалога или динамического синтеза речи. Идеальным решением стала бы единая модель, которая напрямую понимает аудиовопрос и генерирует выразительный аудиоответ без текста.

От моделей на основе токенов к полностью унифицированным аудио-языковым моделям

Ранние подходы, такие как HuggingGPT и AudioGPT, объединяли отдельные модели речи и языка, но испытывали трудности с взаимодействием в реальном времени. Поздние модели — VALL-E, SpeechGPT, AudioPaLM и Qwen2-Audio — использовали токенизацию аудио, преобразуя звук в дискретные представления, но в основном выводили текст и требовали отдельные вокодеры, что ограничивало выразительность и скорость ответа.

Представляем Step-Audio-AQAA: полностью сквозная система Audio Query–Audio Answer

StepFun разработала Step-Audio-AQAA — масштабную аудио-языковую модель, специально созданную для задач преобразования аудиозапроса в аудиоответ. Модель напрямую превращает устную речь в выразительный устный ответ без промежуточного текста. В ее архитектуру входят двойной токенизатор аудио, большой языковой модельный каркас Step-Omni с 130 миллиардами параметров и вокодер с flow-matching для естественного синтеза речи с низкой задержкой.

Токенизация, архитектура и управление голосом

Используются два отдельных токенизатора: лингвистический на основе Paraformer, который извлекает структурные элементы речи (фонемы) с частотой 16.7 Гц и словарём из 1024 токенов, и семантический, вдохновленный CosyVoice 1.0, кодирующий акустическую насыщенность с частотой 25 Гц и словарём из 4096 токенов. Они чередуются в соотношении 2:3 и подаются в Step-Omni — мультимодальную LLM, обученную на текстах, аудио и изображениях. Модель генерирует трёхкодовые последовательности аудио и текстовых токенов, которые вокодер преобразует в плавную речь. Такая схема позволяет тонко управлять голосовыми параметрами, включая эмоциональную окраску и темп речи.

Результаты тестирования

Step-Audio-AQAA прошла проверку на бенчмарке StepEval-Audio-360, включающем многоязычные и многодиалектные аудиозадачи в 9 категориях: креативность, игры, контроль эмоций, ролевые игры и понимание голоса. Модель превзошла передовые решения, такие как Kimi-Audio и Qwen-Omni, набрав лучшие средние оценки восприятия (Mean Opinion Scores) в большинстве категорий. В экспериментах с соотношением текстовых и аудиотокенов 10:15 достигнуты высокие показатели Chat (4.03), Relevance (0.65) и Factuality (0.67). При использовании маркер-сохраняющей конкатенации аудио-маршрутов показатели еще лучше: Chat (4.22), Relevance (0.57), Factuality (0.57), что подтверждает семантическую точность и эмоциональную насыщенность.

Новый этап в выразительной машинной речи

Объединение выразительной токенизации аудио, мощной мультимодальной LLM и передовых методов обучения, таких как Direct Preference Optimization и слияние моделей, позволяет Step-Audio-AQAA преодолеть ограничения модульных речевых систем. Модель генерирует качественную, эмоционально насыщенную речь, делая шаг вперед к естественному и выразительному голосовому общению машин.

Подробности доступны в статье и модели на Hugging Face. Следите за новостями в Twitter, присоединяйтесь к сообществу ML SubReddit и подписывайтесь на рассылку.