MiMo-Audio: 7B речевая LLM от Xiaomi, обученная на 100M+ часов с высококачественными RVQ-токенами

сентября 20, 2025 · 3 min

Высококачественная дискретизация речи

Команда MiMo от Xiaomi представила MiMo-Audio, 7-миллиардную аудио-языковую модель, которая использует единый next-token объектив для чередующихся текстовых и дискретизированных речевых токенов. Главная новинка — RVQ-токенизатор, сохраняющий просодию, тембр и идентичность говорящего, что позволяет авторегрессионно моделировать речь вместе с текстом на масштабах свыше 100 миллионов часов аудио.

RVQ-токенизатор и его роль

Вместо потерь при кодировании акустики или отдельных задачных голов модель применяет специализированный RVQ-токенизатор с частотой 25 Гц и 8 слоями RVQ, примерно 200 токенов в секунду. Токенизатор ориентирован на семантическую точность и качественную реконструкцию, давая языковой модели доступ к почти ‘безпотерянным’ речевым признакам, которые можно прогнозировать тем же next-token методом, что и для текста.

Архитектура и патчи

Стек устроен как: patch encoder → 7B LLM → patch decoder. Чтобы согласовать частоты аудио и LM, система упаковывает четыре временных шага по 25 Гц в один патч, понижая частоту до 6.25 Гц для обработки LLM. Каузальный patch decoder восстанавливает потоки RVQ на полной частоте. Задержанная многослойная генерация RVQ поэтапно предсказывает кодбуки, что помогает учитывать межслойные зависимости и стабилизировать синтез.

Все три части обучаются совместно под единым next-token объективом, без отдельных предобучающих потерь для ASR или TTS.

Этапы обучения и появление few-shot способностей

Обучение проходит в двух фазах. Сначала этап ‘понимания’ оптимизирует loss по текстовым токенам на смешанных корпусах речь+текст. Затем включается совместный этап ‘понимания + генерация’ с аудио-лоссами для продолжения речи, S2T/T2S и инструкционных данных. В отчете отмечен порог по данным и вычислениям, после которого проявляются few-shot способности, похожие на кривые появления эффектов в больших текстовых моделях.

Бенчмарки, демо и инструменты

MiMo-Audio протестирована на наборах для речевого рассуждения и общего аудио-понимания. Отчет показывает сильные результаты на SpeechMMLU и MMAU с уменьшением разрыва между текстовыми и речевыми режимами. Xiaomi публикует MiMo-Audio-Eval для воспроизведения оценок и размещает демо для продолжения речи, преобразования голоса и эмоций, денойзинга и перевода речи. Демо: https://xiaomimimo.github.io/MiMo-Audio-Demo/

Почему это важно

Подход преднамеренно прост: next-token предсказание в стиле GPT по тексту и «безпотерянным» аудио-токенам. Ключевые инженерные решения — токенизатор, сохраняющий просодию и идентичность говорящего, патчи для управления длиной последовательностей и отложенная RVQ-декодировка для качества генерации. Для команд, создающих голосовых агентов, это означает эффективное few-shot редактирование речи и надежное продолжение с минимальным task-specific финетюнингом.

Шесть технических выводов

Высококачественная токенизация: кастомный RVQ на 25 Гц с 8 кодбуками сохраняет просодию и тембр и остается удобным для LLM.
Патчефикация последовательностей: группирование 4 временных шагов в патч сокращает частоту с 25 Гц до 6.25 Гц для LLM.
Унифицированный next-token объектив: отсутствие отдельных голов для ASR/TTS при предобучении упрощает архитектуру и улучшает мультизадачную обобщаемость.
Появление few-shot способностей: продолжение речи, преобразование голоса и эмоций, перевод появляются после масштабного обучения (~100M часов).
Лидерство в бенчмарках: указаны SOTA-результаты и сокращение модального разрыва.
Открытая экосистема: опубликованы токенизатор, чекпойнты 7B, MiMo-Audio-Eval и публичные демо для исследований и разработки.

Дополнительные материалы

Подробности, статью и репозитории можно найти на странице проекта MiMo и GitHub. Демо показывают практические возможности in-context S2S редактирования, продолжения и кросс-модальных задач.