LFM2-8B-A1B: MoE от Liquid AI для работы на устройствах с 1.5B активных параметров

Что представляет собой модель

Liquid AI выпустила LFM2-8B-A1B, Mixture-of-Experts модель, оптимизированную для запуска на устройствах с ограниченной памятью, энергопотреблением и задержкой. В модели 8.3 миллиарда параметров всего, но активируется примерно 1.5 миллиарда параметров на токен благодаря разреженной маршрутизации экспертов. Цель — телефоны, ноутбуки и встроенные системы, а не серверная пакетная обработка.

Архитектура и маршрутизация

LFM2-8B-A1B использует ‘fast backbone’ LFM2 и вставляет разреженные MoE-блоки в FFN, чтобы увеличить емкость без существенного увеличения вычислений на токен. Каркас включает 18 gated short-convolution блоков и 6 grouped-query attention (GQA) блоков. Все слои, кроме первых двух, содержат MoE-блоки; первые два слоя остаются плотными для стабильности обучения.

Каждый MoE-блок определяет 32 эксперта. Роутер выбирает топ-4 экспертов на токен через нормализованный сигмоидный гейт с адаптивным сдвигом для балансировки нагрузки и стабилизации обучения. Длина контекста — 32 768 токенов; размер словаря — 65 536; бюджет предобучения — около 12 триллионов токенов.

Такой подход удерживает количество FLOPs и рост кэша на токен в пределах активного пути (внимание плюс четыре экспертных MLP), в то время как общий бюджет параметров позволяет моделировать специализированные знания в языках, математике и коде, где очень маленькие плотные модели часто уступают.

Производительность

Liquid AI сообщает, что LFM2-8B-A1B существенно быстрее Qwen3-1.7B в тестах на CPU при использовании внутреннего стека на базе XNNPACK и кастомного CPU MoE-ядра. Публичные графики демонстрируют int4 квантование с int8 динамическими активациями на AMD Ryzen AI 9 HX370 и Samsung Galaxy S24 Ultra. Команда оценивает качество модели как сопоставимое с классом 3–4B плотных моделей, при этом активные вычисления остаются около 1.5B на токен.

Карта модели содержит результаты по 16 бенчмаркам: знания (MMLU/MMLU-Pro/GPQA), следование инструкциям (IFEval/IFBench/Multi-IF), математика (GSM8K/GSMPlus/MATH500/MATH-Lvl-5) и мультиязычность (MGSM/MMMLU). Показатели указывают на конкурентное поведение в задаче следования инструкциям и математике в малой категории моделей, а также улучшенную емкость знаний по сравнению с LFM2-2.6B.

Развёртывание и инструменты

LFM2-8B-A1B поставляется с поддержкой Transformers/vLLM для GPU-инференса и сборками GGUF для llama.cpp. Официальный репозиторий GGUF указывает распространенные кванты от Q4_0 (~4.7 GB) до F16 (~16.7 GB) для локального запуска. Для llama.cpp требуется свежая сборка с поддержкой lfm2moe (b6709+), иначе возможны ошибки типа unknown model architecture.

Валидация на CPU проводилась с Q4_0 и int8 динамическими активациями на AMD Ryzen AI 9 HX370 и Samsung Galaxy S24 Ultra, где LFM2-8B-A1B показала более высокую пропускную способность декодинга, чем Qwen3-1.7B, в сопоставимом классе активных параметров. Для мобильного и встроенного развёртывания упоминается ExecuTorch.

Модель выпущена под лицензией LFM Open License v1.0 (lfm1.0) и доступна со стандартными весами и GGUF-файлами для локального, низколатентного использования.

Что это значит на практике

LFM2-8B-A1B демонстрирует, что разреженные MoE-архитектуры практичны и вне серверного масштаба. Удерживая вычисления на токен около 1.5B при общем бюджете 8.3B, модель предлагает реальный вариант для приватных помощников и встроенных копилотов на высокопроизводительных потребительских и периферийных устройствах.