NeuTTS Air — 748M-модель для on-device TTS с мгновенным клонированием голоса

октября 3, 2025 · 3 min

Обзор

Neuphonic опубликовала NeuTTS Air — open-source модель для текст-в-речь, рассчитанную на локальный реальный тайм запуск на CPU. В карточке модели на Hugging Face указано 748M параметров под архитектурой qwen2. Модель распространяется в GGUF-квантизациях (Q4/Q8) и может запускаться через llama.cpp / llama-cpp-python без облачных сервисов. Релиз доступен под лицензией Apache-2.0 и включает демо, примеры и Space.

Архитектура и runtime

NeuTTS Air сочетает лёгкий Qwen-бекбон (отмеченный как класс 0.5B для LM) с аудиокодеком NeuCodec. Артефакт на Hugging Face заявлен как 748M параметров под qwen2. NeuCodec обеспечивает низкобитовую токенизацию и декодирование акустики, ориентируясь на примерно 0.8 kbps и выход 24 kHz, что делает представления компактными и подходящими для on-device применения.

Релиз поставляется в формате GGUF с квантизациями Q4/Q8 и инструкциями по запуску через llama.cpp / llama-cpp-python, а также опциональным ONNX-пути для декодера. Среди зависимостей указаны espeak для фонемизации и Jupyter-ноутбук с end-to-end примерами.

Ключевые возможности

Реализм при масштабе <1B: модель стремится сохранять человеческую просодию и тембр при ~0.7B классе LM.
On-device деплой: GGUF (Q4/Q8) с CPU-first путями, пригодно для ноутбуков, телефонов и плат типа Raspberry Pi.
Мгновенное клонирование: перенос стиля с ~3 секунд эталонного аудио (WAV + транскрипт) для синтеза текста в тембре референсного говорящего.
Компактный стек LM + кодек: Qwen 0.5B в связке с NeuCodec (0.8 kbps / 24 kHz) для баланса задержки, занимаемой памяти и качества звука.

Фокус на производительности на устройстве

Neuphonic позиционирует NeuTTS Air для генерации в реальном времени на устройствах среднего уровня и делает ставку на CPU-first настройки. Хотя карточка не публикует конкретные RTF/метрики fps, квантизации GGUF и примеры демонстрируют рабочий поток локального инференса без GPU. Минимальные зависимости упрощают развертывание на периферии.

Процесс клонирования голоса

Для клонирования NeuTTS Air требует два входа: (1) эталонный WAV и (2) транскрипт этого эталонного аудио. Система кодирует референс в стиль-токены, после чего синтезирует любой текст в тембре исходного говорящего. Neuphonic рекомендует 3–15 секунд чистого моно-аудио и предоставляет предзакодированные образцы.

Конфиденциальность, водяной знак и лицензия

Проект позиционируется для приватного on-device использования — аудио и текст не покидают устройство без согласия пользователя. Везде генерируемое аудио содержит персептуальный водяной знак Perth для поддержки происхождения и ответственного использования. Код и модели распространяются под лицензией Apache-2.0, что удобно для многих сценариев деплоя.

Сравнение и замечания

На рынке есть другие открытые локальные TTS-пайплайны, но NeuTTS Air выделяется упаковкой компактного LM и нейрокодека с мгновенным клонированием, CPU-first квантизациями, водяным знаком и либеральной лицензией. Заявление вендора о «первой в мире суперт реалистичной on-device TTS-модели» — маркетинговое утверждение; проверяемые факты — размер, форматы, процедура клонирования и прилагаемые рантаймы.

Практические замечания

Системно, сочетание ~0.7B Qwen-класса с GGUF и NeuCodec на 0.8 kbps/24 kHz выглядит прагматично для реального времени на CPU и сохранения тембра при коротких референсах. Публикация конкретных метрик задержки и качества клонирования в зависимости от длины референса помогла бы провести объективное сравнение с другими локальными решениями. Тем не менее репозиторий, карточка модели и примеры позволяют быстро попробовать локальный синтез и клонирование с минимальными зависимостями.

Попробовать

Ознакомьтесь с модель-картой на Hugging Face и страницей на GitHub для демо, ноутбуков и примеров использования. Релиз включает runnable-примеры и хостенный Space для тестирования клонирования голоса и локального инференса.