LLaMA-Omni2: прорыв китайских исследователей в реальном времени с моделями речи на базе больших языковых моделей
Китайские исследователи представили LLaMA-Omni2 — модульную модель речи, обеспечивающую реальное время и минимальную задержку в голосовом взаимодействии с большими языковыми моделями.
Представляем LLaMA-Omni2: модульная модель языка со способностями речи
Исследователи из Института вычислительной техники Китайской академии наук представили LLaMA-Omni2 — семейство больших языковых моделей с поддержкой речи (SpeechLM), доступных на Hugging Face. Эта инновационная модульная архитектура объединяет восприятие речи, синтез и понимание языка в едином конвейере, который работает в реальном времени с минимальной задержкой, сохраняя при этом модульность и снижая затраты на обучение.
Обзор архитектуры
Модели LLaMA-Omni2 имеют размер от 0,5 до 14 миллиардов параметров и построены на серии Qwen2.5-Instruct. Ключевые компоненты архитектуры:
- Кодировщик речи: использует Whisper-large-v3 для преобразования входной речи в токеновые акустические представления.
- Адаптер речи: применяет слой понижения дискретизации и полносвязную сеть для согласования выходов кодировщика с входом языковой модели.
- Основная языковая модель: модели Qwen2.5 выполняют основную функцию рассуждения.
- Декодер потокового синтеза речи (TTS): автогрегрессивный трансформер генерирует токены речи, которые затем преобразуются в мел-спектрограммы с помощью модели causal flow matching, вдохновлённой CosyVoice2.
Механизм гейтинга объединяет скрытые состояния LLM с текстовыми эмбеддингами перед синтезом речи, улучшая точность контекста в аудио.
Потоковая генерация и оптимизация задержки
Модель использует стратегию чтения и записи, генерируя токены речи параллельно с текстовыми. На каждые R токенов, созданных LLM, генерируется W токенов речи, что обеспечивает синхронизацию и минимальные задержки. Оптимальные параметры R = 3 и W = 10 обеспечивают задержку около 583 мс, низкий уровень ошибок распознавания речи (ASR-WER 3.26) и высокое качество восприятия (UTMOS 4.19).
Эффективное обучение с ограниченными данными
Обучение проводится на сравнительно небольшом корпусе из 200 000 многоходовых диалогов речи, синтезированных из текстовых датасетов Alpaca и UltraChat с использованием разнообразных голосов на входе и единого голоса на выходе, созданного FishSpeech и CosyVoice2.
Обучение проходит в два этапа:
- Этап I: независимая оптимизация модулей распознавания и синтеза речи.
- Этап II: дообучение всего пути генерации речи, включая гейтинговый механизм и автогрегрессивный декодер.
Результаты на эталонных тестах
LLaMA-Omni2 превосходит предыдущие модели, такие как GLM-4-Voice и LLaMA-Omni, в задачах голосовых вопросов и инструкций, с ростом производительности при увеличении размера модели. Вариант с 14 млрд параметров демонстрирует лучшие результаты, несмотря на меньший объем данных для обучения.
Анализ компонентов и выводы
- Модуль гейтинга: важен для точного согласования текстовых и контекстных сигналов; его удаление снижает качество.
- Предобучение TTS: инициализация от Qwen2.5 и настройка в потоковом режиме дают лучшие результаты.
- Стратегии чтения/записи: влияют на компромисс между задержкой и качеством.
Данные с многоходовыми диалогами оказываются более эффективными, чем с одноходовыми, а производительность стабилизируется около 200 тысяч образцов.
LLaMA-Omni2 устанавливает новый стандарт для реального времени и низкой задержки в голосовом взаимодействии с большими языковыми моделями, показывая, что высококачественная речь возможна без обширного предобучения на больших речевых корпусах. Это открывает путь для практических приложений в реальном времени, объединяющих продвинутые языковые возможности и синтез речи.
Для подробностей ознакомьтесь с публикацией, моделью на Hugging Face и репозиторием на GitHub.
Switch Language
Read this article in English