LLaMA-Omni2: прорыв китайских исследователей в реальном времени с моделями речи на базе больших языковых моделей

Представляем LLaMA-Omni2: модульная модель языка со способностями речи

Исследователи из Института вычислительной техники Китайской академии наук представили LLaMA-Omni2 — семейство больших языковых моделей с поддержкой речи (SpeechLM), доступных на Hugging Face. Эта инновационная модульная архитектура объединяет восприятие речи, синтез и понимание языка в едином конвейере, который работает в реальном времени с минимальной задержкой, сохраняя при этом модульность и снижая затраты на обучение.

Обзор архитектуры

Модели LLaMA-Omni2 имеют размер от 0,5 до 14 миллиардов параметров и построены на серии Qwen2.5-Instruct. Ключевые компоненты архитектуры:

Кодировщик речи: использует Whisper-large-v3 для преобразования входной речи в токеновые акустические представления.
Адаптер речи: применяет слой понижения дискретизации и полносвязную сеть для согласования выходов кодировщика с входом языковой модели.
Основная языковая модель: модели Qwen2.5 выполняют основную функцию рассуждения.
Декодер потокового синтеза речи (TTS): автогрегрессивный трансформер генерирует токены речи, которые затем преобразуются в мел-спектрограммы с помощью модели causal flow matching, вдохновлённой CosyVoice2.

Механизм гейтинга объединяет скрытые состояния LLM с текстовыми эмбеддингами перед синтезом речи, улучшая точность контекста в аудио.

Потоковая генерация и оптимизация задержки

Модель использует стратегию чтения и записи, генерируя токены речи параллельно с текстовыми. На каждые R токенов, созданных LLM, генерируется W токенов речи, что обеспечивает синхронизацию и минимальные задержки. Оптимальные параметры R = 3 и W = 10 обеспечивают задержку около 583 мс, низкий уровень ошибок распознавания речи (ASR-WER 3.26) и высокое качество восприятия (UTMOS 4.19).

Эффективное обучение с ограниченными данными

Обучение проводится на сравнительно небольшом корпусе из 200 000 многоходовых диалогов речи, синтезированных из текстовых датасетов Alpaca и UltraChat с использованием разнообразных голосов на входе и единого голоса на выходе, созданного FishSpeech и CosyVoice2.

Обучение проходит в два этапа:

Этап I: независимая оптимизация модулей распознавания и синтеза речи.
Этап II: дообучение всего пути генерации речи, включая гейтинговый механизм и автогрегрессивный декодер.

Результаты на эталонных тестах

LLaMA-Omni2 превосходит предыдущие модели, такие как GLM-4-Voice и LLaMA-Omni, в задачах голосовых вопросов и инструкций, с ростом производительности при увеличении размера модели. Вариант с 14 млрд параметров демонстрирует лучшие результаты, несмотря на меньший объем данных для обучения.

Анализ компонентов и выводы

Модуль гейтинга: важен для точного согласования текстовых и контекстных сигналов; его удаление снижает качество.
Предобучение TTS: инициализация от Qwen2.5 и настройка в потоковом режиме дают лучшие результаты.
Стратегии чтения/записи: влияют на компромисс между задержкой и качеством.

Данные с многоходовыми диалогами оказываются более эффективными, чем с одноходовыми, а производительность стабилизируется около 200 тысяч образцов.

LLaMA-Omni2 устанавливает новый стандарт для реального времени и низкой задержки в голосовом взаимодействии с большими языковыми моделями, показывая, что высококачественная речь возможна без обширного предобучения на больших речевых корпусах. Это открывает путь для практических приложений в реальном времени, объединяющих продвинутые языковые возможности и синтез речи.

Для подробностей ознакомьтесь с публикацией, моделью на Hugging Face и репозиторием на GitHub.