Liquid AI выпустила LFM2-Audio-1.5B: энд-то-энд аудио‑модель с задержкой менее 100 мс

Что такое LFM2-Audio-1.5B

Liquid AI представила LFM2-Audio-1.5B — компактную аудио‑языковую фундаментальную модель, которая понимает и генерирует речь и текст в едином энд-то-энд стеке. Модель нацелена на низкую задержку и работу в реальном времени на устройствах с ограниченными ресурсами, расширяя семью LFM2 в область аудио при сохранении небольшого размера.

Единый бэкенд и разделённые аудио-представления

LFM2-Audio адаптирует языковой бэкенд LFM2 с 1.2 миллиардами параметров, рассматривая аудио и текст как токены последовательности. Ключевая идея — разделение представлений ввода и вывода аудио: входы — это непрерывные эмбеддинги, проецируемые напрямую из фрагментов сырого волнового сигнала (~80 мс), а выходы — дискретные аудио-коды. Такой подход избегает артефактов дискретизации на пути ввода и при этом сохраняет автогрессивное обучение и генерацию на выходе для обеих модальностей.

Компоненты модели и реализация

В опубликованном чекпойнте и карточке модели указаны следующие компоненты:

Liquid AI также выпустила пакет для Python (liquid-audio) и Gradio-демо, демонстрирующие режимы генерации.

Режимы генерации для агентов

Модель поддерживает два режима генерации, оптимизированных под разные сценарии в реальном времени:

Эти режимы позволяют использовать одну модель для распознавания речи, синтеза речи, классификации и конверсационных агентов.

Задержка и бенчмарки

Команда Liquid AI сообщает о сквозной задержке ниже 100 мс до первого слышимого отклика при 4-секундном аудиозапросе в их конфигурации — показатель, характеризующий воспринимаемую отзывчивость. В сравнении они указывают, что это быстрее, чем модели меньше 1.5B параметров в их тестах.

На VoiceBench — наборе из девяти тестов для голосовых ассистентов — LFM2-Audio-1.5B показала общий счёт 56.78 с разбивкой по задачам в блоге. Карточка на Hugging Face добавляет альтернативную таблицу VoiceBench и классические ASR WER-метрики, где LFM2-Audio сопоставима или лучше Whisper-large-v3-turbo на некоторых датасетах (например, AMI 15.36 против 16.13, LibriSpeech-clean 2.03 против 2.10, чем ниже — тем лучше).

Почему это важно для голосового AI

Типичные omni-стеки объединяют ASR → LLM → TTS, что увеличивает задержку и делает интерфейс хрупким. Однобекендовый подход LFM2-Audio с непрерывными входными эмбеддингами и дискретными выходными кодами сокращает связующую логику и позволяет применять интерливинговую декодировку для ранней генерации аудио. Для разработчиков это значит более простые пайплайны и более быстрая воспринимаемая отдача, сохраняя поддержку нескольких задач в одной модели. Ресурсы, демо и публикация на Hugging Face упрощают эксперименты с реальным временем на ограниченном железе.