NeuTTS Air — 748M-модель для on-device TTS с мгновенным клонированием голоса
Обзор
Neuphonic опубликовала NeuTTS Air — open-source модель для текст-в-речь, рассчитанную на локальный реальный тайм запуск на CPU. В карточке модели на Hugging Face указано 748M параметров под архитектурой qwen2. Модель распространяется в GGUF-квантизациях (Q4/Q8) и может запускаться через llama.cpp / llama-cpp-python без облачных сервисов. Релиз доступен под лицензией Apache-2.0 и включает демо, примеры и Space.
Архитектура и runtime
NeuTTS Air сочетает лёгкий Qwen-бекбон (отмеченный как класс 0.5B для LM) с аудиокодеком NeuCodec. Артефакт на Hugging Face заявлен как 748M параметров под qwen2. NeuCodec обеспечивает низкобитовую токенизацию и декодирование акустики, ориентируясь на примерно 0.8 kbps и выход 24 kHz, что делает представления компактными и подходящими для on-device применения.
Релиз поставляется в формате GGUF с квантизациями Q4/Q8 и инструкциями по запуску через llama.cpp / llama-cpp-python, а также опциональным ONNX-пути для декодера. Среди зависимостей указаны espeak для фонемизации и Jupyter-ноутбук с end-to-end примерами.
Ключевые возможности
- Реализм при масштабе <1B: модель стремится сохранять человеческую просодию и тембр при ~0.7B классе LM.
- On-device деплой: GGUF (Q4/Q8) с CPU-first путями, пригодно для ноутбуков, телефонов и плат типа Raspberry Pi.
- Мгновенное клонирование: перенос стиля с ~3 секунд эталонного аудио (WAV + транскрипт) для синтеза текста в тембре референсного говорящего.
- Компактный стек LM + кодек: Qwen 0.5B в связке с NeuCodec (0.8 kbps / 24 kHz) для баланса задержки, занимаемой памяти и качества звука.
Фокус на производительности на устройстве
Neuphonic позиционирует NeuTTS Air для генерации в реальном времени на устройствах среднего уровня и делает ставку на CPU-first настройки. Хотя карточка не публикует конкретные RTF/метрики fps, квантизации GGUF и примеры демонстрируют рабочий поток локального инференса без GPU. Минимальные зависимости упрощают развертывание на периферии.
Процесс клонирования голоса
Для клонирования NeuTTS Air требует два входа: (1) эталонный WAV и (2) транскрипт этого эталонного аудио. Система кодирует референс в стиль-токены, после чего синтезирует любой текст в тембре исходного говорящего. Neuphonic рекомендует 3–15 секунд чистого моно-аудио и предоставляет предзакодированные образцы.
Конфиденциальность, водяной знак и лицензия
Проект позиционируется для приватного on-device использования — аудио и текст не покидают устройство без согласия пользователя. Везде генерируемое аудио содержит персептуальный водяной знак Perth для поддержки происхождения и ответственного использования. Код и модели распространяются под лицензией Apache-2.0, что удобно для многих сценариев деплоя.
Сравнение и замечания
На рынке есть другие открытые локальные TTS-пайплайны, но NeuTTS Air выделяется упаковкой компактного LM и нейрокодека с мгновенным клонированием, CPU-first квантизациями, водяным знаком и либеральной лицензией. Заявление вендора о «первой в мире суперт реалистичной on-device TTS-модели» — маркетинговое утверждение; проверяемые факты — размер, форматы, процедура клонирования и прилагаемые рантаймы.
Практические замечания
Системно, сочетание ~0.7B Qwen-класса с GGUF и NeuCodec на 0.8 kbps/24 kHz выглядит прагматично для реального времени на CPU и сохранения тембра при коротких референсах. Публикация конкретных метрик задержки и качества клонирования в зависимости от длины референса помогла бы провести объективное сравнение с другими локальными решениями. Тем не менее репозиторий, карточка модели и примеры позволяют быстро попробовать локальный синтез и клонирование с минимальными зависимостями.
Попробовать
Ознакомьтесь с модель-картой на Hugging Face и страницей на GitHub для демо, ноутбуков и примеров использования. Релиз включает runnable-примеры и хостенный Space для тестирования клонирования голоса и локального инференса.