Step-Audio-EditX: открытая 3B аудио LLM, позволяющая редактировать речь как текст

От работы с шумами волновой формы к токенному контролю

StepFun AI выпустила открытый Step-Audio-EditX — 3 миллиардная параметровая аудио LLM, которая переводит редактирование речи в операцию похожую на редактирование текста. Модель оперирует дискретными токенами вместо низкоуровневой обработки волновой формы, что делает возможными прямые, итеративные и управляемые правки эмоций, стиля и паралингвистики.

Двойной кодбук-токенизатор и компактная аудио LLM

Система использует Step-Audio dual codebook tokenizer. Речь кодируется в два перемежающихся потока токенов: лингвистический поток с частотой 16.7 Гц и кодбуком на 1024 элемента, и семантический поток с частотой 25 Гц и кодбуком на 4096 элементов. Токены сохраняют просодию и эмоции, поэтому представления остаются частично переплетёнными.

Поверх токенизатора стоит 3B параметровая аудио LLM. Модель инициализируется от текстовой LLM и обучается на смешанном корпусе, который сочетает чистый текст и токены dual-codebook в формате чат-подобных промптов. Модель читает текстовые токены, аудио токены или оба типа и всегда генерирует dual-codebook аудио токены.

Отдельный аудио-декодер восстанавливает сигнал: модуль flow-matching на базе diffusion transformer предсказывает Mel-спектрограммы по аудио-токенам, референсному аудио и вектору говорящего, а BigVGANv2 вокодер превращает спектрограммы в волну. Модуль flow-matching обучали примерно на 200000 часах высококачественной речи для улучшения произношения и схожести тембра. (См. статью: https://arxiv.org/pdf/2511.03601)

Большие маржинальные синтетические данные для управления

Вместо добавления сложных энкодеров для дизентанглинга команда использует стратегию обучения с большими маржинами. Идея в том, чтобы фиксировать текст и изменять одну характеристику с явным разрывом, чтобы модель научилась связывать инструкции с конкретными токенными правками.

Для zero-shot TTS использовали большой внутренний датасет, главным образом китайский и английский, с небольшими кусками кантонского и сычуаньского, около 60000 говорящих и широкой вариативностью стиля и эмоций. Для редактирования эмоций и стиля строят синтетические триплеты: актёры записывают примерные 10-секундные клипы для каждой эмоции и стиля, затем StepTTS клонирует голос и генерирует нейтральные и эмоциональные версии для одного текста и говорящего. Модель оценки маржи, обученная на небольшом наборе аннотаций, даёт оценку от 1 до 10, и сохраняются пары с оценкой не ниже 6.

Паралингвистическое редактирование (дыхание, смех, заполнители и т.д.) использует полусинтетическую стратегию поверх NVSpeech: строят квадруплеты, где целью является оригинальный аудио и транскрипт, а входом — клонированная версия с удалёнными тегами. Это даёт надзор во временной области без маржинальной модели.

Данные для RL комбинируют две источника предпочтений: человеческие аннотаторы оценивают 20 кандидатов на промпт по 5-балльной шкале за корректность, просодию и естественность, и пары с маржой > 3 сохраняются. Модель понимания оценивает эмоцию и стиль по шкале 1–10 и сохраняет пары с маржой > 8.

Обучение: SFT затем PPO

Постобучение проводится в два этапа: supervised fine tuning (SFT) и PPO.

В SFT задачи zero-shot TTS и редактирования формулируют в едином чат-формате. Для TTS промпт кодирует волну в dual-codebook токены, вставленные в системный промпт как информация о говорящем, а пользовательское сообщение содержит целевой текст. Для редактирования пользовательское сообщение включает исходные аудио-токены и инструкцию на естественном языке; модель возвращает отредактированные токены.

Далее 3B reward модель инициализируется от SFT чекпойнта и обучается на парах предпочтений с Bradley Terry loss. Награда считается прямо на последовательностях dual-codebook токенов без декодирования в волну. PPO использует эту токенную награду, порог клиппинга и KL-пенализацию, чтобы сбалансировать качество и отклонение от SFT политики.

Оценка: Step-Audio-Edit-Test и итеративные улучшения

Команда представила Step-Audio-Edit-Test, где в роли судьи выступает LLM Gemini 2.5 Pro, оценивающий эмоцию, стиль и паралингвистику. Бенчмарк включает 8 говорящих из Wenet Speech4TTS, GLOBE V2 и Libri Light и множество промптов на разных языках.

Редактирование измеряют итеративно: итерация 0 — начальное zero-shot клонирование, затем три раунда текстовых инструкций. Для китайского эмоция выросла с 57.0 на итерации 0 до 77.7 на итерации 3; точность стиля увеличилась с 41.6 до 69.2. Английский показывает схожие улучшения. Абляция с фиксированным промптом, где одно и то же аудио используется на всех итерациях, также улучшает результаты, что подтверждает гипотезу о больших маржинах.

Модель может постобработать выводы закрытых TTS-систем, включая GPT 4o mini TTS, ElevenLabs v2, Doubao Seed TTS 2.0 и MiniMax speech 2.6 hd. Одна итерация редактирования с Step-Audio-EditX повышает точность эмоций и стиля для всех систем, а следующие итерации добавляют улучшения. Паралингвистические баллы растут с примерно 1.91 на итерации 0 до 2.89 после одного редактирования, сопоставимо с сильными коммерческими решениями. (См. статью: https://arxiv.org/pdf/2511.03601)

Значение и доступность в открытом доступе

Step-Audio-EditX показывает, что перевод речи в дискретные токены и обучение на синтетических данных с большими маржинами дают детальный, управляемый контроль над эмоцией, стилем и паралингвистикой без тяжёлых дизентанглирующих архитектур. Весь стек, включая код и веса моделей, открыт для разработчиков и исследователей, чтобы экспериментировать с редактированием, TTS и постобработкой других систем.