Liquid AI выпустила LFM2-Audio-1.5B: энд-то-энд аудио‑модель с задержкой менее 100 мс
Что такое LFM2-Audio-1.5B
Liquid AI представила LFM2-Audio-1.5B — компактную аудио‑языковую фундаментальную модель, которая понимает и генерирует речь и текст в едином энд-то-энд стеке. Модель нацелена на низкую задержку и работу в реальном времени на устройствах с ограниченными ресурсами, расширяя семью LFM2 в область аудио при сохранении небольшого размера.
Единый бэкенд и разделённые аудио-представления
LFM2-Audio адаптирует языковой бэкенд LFM2 с 1.2 миллиардами параметров, рассматривая аудио и текст как токены последовательности. Ключевая идея — разделение представлений ввода и вывода аудио: входы — это непрерывные эмбеддинги, проецируемые напрямую из фрагментов сырого волнового сигнала (~80 мс), а выходы — дискретные аудио-коды. Такой подход избегает артефактов дискретизации на пути ввода и при этом сохраняет автогрессивное обучение и генерацию на выходе для обеих модальностей.
Компоненты модели и реализация
В опубликованном чекпойнте и карточке модели указаны следующие компоненты:
- Бэкенд: LFM2 (гибрид свёртка + attention), 1.2B параметров для LM
- Аудио-энкодер: FastConformer (~115M, canary-180m-flash)
- Аудио-декодер: RQ-Transformer, предсказывает дискретные токены кодека Mimi (8 кодбуков)
- Контекст: 32,768 токенов
- Словари: 65,536 для текста; 2049×8 для аудио
- Точность: bfloat16
- Лицензия: LFM Open License v1.0
- Языки: английский
Liquid AI также выпустила пакет для Python (liquid-audio) и Gradio-демо, демонстрирующие режимы генерации.
Режимы генерации для агентов
Модель поддерживает два режима генерации, оптимизированных под разные сценарии в реальном времени:
- Interleaved generation: чередует текстовые и аудио-токены для живого speech-to-speech чата, минимизируя воспринимаемую задержку за счёт ранней отдачи звука.
- Sequential generation: поочерёдная смена модальностей для классических задач ASR и TTS.
Эти режимы позволяют использовать одну модель для распознавания речи, синтеза речи, классификации и конверсационных агентов.
Задержка и бенчмарки
Команда Liquid AI сообщает о сквозной задержке ниже 100 мс до первого слышимого отклика при 4-секундном аудиозапросе в их конфигурации — показатель, характеризующий воспринимаемую отзывчивость. В сравнении они указывают, что это быстрее, чем модели меньше 1.5B параметров в их тестах.
На VoiceBench — наборе из девяти тестов для голосовых ассистентов — LFM2-Audio-1.5B показала общий счёт 56.78 с разбивкой по задачам в блоге. Карточка на Hugging Face добавляет альтернативную таблицу VoiceBench и классические ASR WER-метрики, где LFM2-Audio сопоставима или лучше Whisper-large-v3-turbo на некоторых датасетах (например, AMI 15.36 против 16.13, LibriSpeech-clean 2.03 против 2.10, чем ниже — тем лучше).
Почему это важно для голосового AI
Типичные omni-стеки объединяют ASR → LLM → TTS, что увеличивает задержку и делает интерфейс хрупким. Однобекендовый подход LFM2-Audio с непрерывными входными эмбеддингами и дискретными выходными кодами сокращает связующую логику и позволяет применять интерливинговую декодировку для ранней генерации аудио. Для разработчиков это значит более простые пайплайны и более быстрая воспринимаемая отдача, сохраняя поддержку нескольких задач в одной модели. Ресурсы, демо и публикация на Hugging Face упрощают эксперименты с реальным временем на ограниченном железе.