StepFun представляет Step-Audio-AQAA: Полностью сквозная аудио-языковая модель для естественного голосового взаимодействия
StepFun представила Step-Audio-AQAA — полностью интегрированную аудио-языковую модель, которая обеспечивает естественное и выразительное голосовое взаимодействие, преобразуя устные запросы напрямую в устные ответы без текста.
Переосмысление аудио-взаимодействия между человеком и компьютером
Создание машин, которые могут отвечать на человеческую речь естественным и выразительным голосом, стало важной задачей в системах интеллектуального взаимодействия. Аудио-языковое моделирование объединяет распознавание речи, понимание естественного языка и генерацию аудио, позволяя машинам понимать и отвечать исключительно голосом, без промежуточного текста. Это важно для доступности, инклюзивности и создания более плавного, человекоподобного взаимодействия в голосовых помощниках, аудиорассказах и управлении без рук.
Ограничения каскадных речевых систем
Большинство современных систем используют цепочку отдельных модулей: преобразование речи в текст, обработка текста и синтез речи. Такая модульная архитектура приводит к накоплению ошибок, задержкам и ограниченной выразительности, что затрудняет выполнение сложных задач, например, эмоционального диалога или динамического синтеза речи. Идеальным решением стала бы единая модель, которая напрямую понимает аудиовопрос и генерирует выразительный аудиоответ без текста.
От моделей на основе токенов к полностью унифицированным аудио-языковым моделям
Ранние подходы, такие как HuggingGPT и AudioGPT, объединяли отдельные модели речи и языка, но испытывали трудности с взаимодействием в реальном времени. Поздние модели — VALL-E, SpeechGPT, AudioPaLM и Qwen2-Audio — использовали токенизацию аудио, преобразуя звук в дискретные представления, но в основном выводили текст и требовали отдельные вокодеры, что ограничивало выразительность и скорость ответа.
Представляем Step-Audio-AQAA: полностью сквозная система Audio Query–Audio Answer
StepFun разработала Step-Audio-AQAA — масштабную аудио-языковую модель, специально созданную для задач преобразования аудиозапроса в аудиоответ. Модель напрямую превращает устную речь в выразительный устный ответ без промежуточного текста. В ее архитектуру входят двойной токенизатор аудио, большой языковой модельный каркас Step-Omni с 130 миллиардами параметров и вокодер с flow-matching для естественного синтеза речи с низкой задержкой.
Токенизация, архитектура и управление голосом
Используются два отдельных токенизатора: лингвистический на основе Paraformer, который извлекает структурные элементы речи (фонемы) с частотой 16.7 Гц и словарём из 1024 токенов, и семантический, вдохновленный CosyVoice 1.0, кодирующий акустическую насыщенность с частотой 25 Гц и словарём из 4096 токенов. Они чередуются в соотношении 2:3 и подаются в Step-Omni — мультимодальную LLM, обученную на текстах, аудио и изображениях. Модель генерирует трёхкодовые последовательности аудио и текстовых токенов, которые вокодер преобразует в плавную речь. Такая схема позволяет тонко управлять голосовыми параметрами, включая эмоциональную окраску и темп речи.
Результаты тестирования
Step-Audio-AQAA прошла проверку на бенчмарке StepEval-Audio-360, включающем многоязычные и многодиалектные аудиозадачи в 9 категориях: креативность, игры, контроль эмоций, ролевые игры и понимание голоса. Модель превзошла передовые решения, такие как Kimi-Audio и Qwen-Omni, набрав лучшие средние оценки восприятия (Mean Opinion Scores) в большинстве категорий. В экспериментах с соотношением текстовых и аудиотокенов 10:15 достигнуты высокие показатели Chat (4.03), Relevance (0.65) и Factuality (0.67). При использовании маркер-сохраняющей конкатенации аудио-маршрутов показатели еще лучше: Chat (4.22), Relevance (0.57), Factuality (0.57), что подтверждает семантическую точность и эмоциональную насыщенность.
Новый этап в выразительной машинной речи
Объединение выразительной токенизации аудио, мощной мультимодальной LLM и передовых методов обучения, таких как Direct Preference Optimization и слияние моделей, позволяет Step-Audio-AQAA преодолеть ограничения модульных речевых систем. Модель генерирует качественную, эмоционально насыщенную речь, делая шаг вперед к естественному и выразительному голосовому общению машин.
Подробности доступны в статье и модели на Hugging Face. Следите за новостями в Twitter, присоединяйтесь к сообществу ML SubReddit и подписывайтесь на рассылку.
Switch Language
Read this article in English