LFM2-VL: сверхбыстрые открытые мультимодальные модели Liquid AI для локального использования на устройствах
'Liquid AI выпустила LFM2-VL: две открытые мультимодальные модели 450M и 1.6B, оптимизированные для быстрого локального инференса на устройствах.'
Что такое LFM2-VL и зачем это нужно
Liquid AI представила LFM2-VL, семейство мультимодальных foundation-моделей, оптимизированных для низкой задержки и запуска на устройствах. Две версии, LFM2-VL-450M и LFM2-VL-1.6B, позволяют запускать продвинутые vision-language возможности на смартфонах, ноутбуках, носимых устройствах и встроенных системах без существенных потерь в скорости или качестве.
Скорость, эффективность и целевые устройства
Модели LFM2-VL ориентированы на высокую скорость вывода и экономное использование ресурсов. По данным Liquid AI, они дают до 2× более быстрое GPU-инференс по сравнению с многими существующими VLM при сопоставимых результатах на задачах описания изображений, визуальных вопросов и мультимодального рассуждения. Версия на 450M параметров подходит для сильно ограниченных устройств, а версия на 1.6B параметров обеспечивает больше возможностей, оставаясь приемлемой для однографовых систем и производительных мобильных устройств.
Технические новшества
- Модульная архитектура: каждая LFM2-VL комбинирует языковой бэко́н (LFM2-1.2B или LFM2-350M) с визуальным энкодером SigLIP2 NaFlex (400M или 86M параметров) и мультимодальным проектором. Применяется техника 'pixel unshuffle' для динамического уменьшения числа токенов изображения и ускорения обработки.
- Обработка родного разрешения: изображения обрабатываются в исходном разрешении до 512×512 без искажений от апскейлинга. Более крупные изображения разбиваются на неперекрывающиеся патчи 512×512, что сохраняет детали и соотношение сторон. Модель 1.6B дополнительно кодирует уменьшенную миниатюру всего изображения для глобального контекста.
- Гибкий вывод: при инференсе можно настраивать компромисс скорости и качества, регулируя максимум токенов изображения и число патчей, что позволяет адаптироваться к возможностям устройства и требованиям приложения.
Обучение и данные
Модели были предварительно обучены на бэко́не LFM2, затем совместно mid-trained для слияния визуальных и языковых способностей с прогрессивной корректировкой соотношения текстово-изображенных данных, и в финале дообучены для понимания изображений на примерно 100 миллиардах мультимодальных токенов.
Результаты на бенчмарках и доступность
LFM2-VL показывает конкурентные результаты на публичных бенчмарках типа RealWorldQA, MM-IFEval и OCRBench, соперничая с более крупными моделями, такими как InternVL3 и SmolVLM2, но занимая меньше памяти и работая заметно быстрее. Обе версии доступны как open-weight на Hugging Face под лицензией, основанной на Apache 2.0, что позволяет свободное использование в исследованиях и коммерции для компаний; для крупных предприятий доступна коммерческая лицензия по запросу. Поддержка Hugging Face Transformers и квантования дает дополнительные преимущества при запуске на edge-устройстве.
Сценарии использования и интеграция
LFM2-VL ориентирована на разработчиков и организации, которым нужно быстрое и точное мультимодальное ИИ на устройствах: реальные приложения включают моментальное генерацию подписей к изображениям, визуальный поиск, интерактивные мультимодальные чат-боты, умные камеры, роботов и IoT. Примеры инференса включают поддержки llama.cpp и разные уровни квантования. Для глубокой кастомизации и мультиплатформенного развёртывания доступна платформа LEAP от Liquid AI.
Как начать работу
Обе модели уже доступны в коллекции Liquid AI на Hugging Face. На проектной странице приведены технические детали, примеры инференса и ссылки на GitHub с учебными материалами и ноутбуками. Для новостей и общения с сообществом Liquid AI рекомендует подписаться на их каналы и рассылку.
Switch Language
Read this article in English