LFM2-VL-3B: 3-миллиардная мультимодальная модель Liquid AI для edge-устройств
Что представляет собой LFM2-VL-3B
Liquid AI выпустила LFM2-VL-3B, 3-миллиардную визуально-языковую модель для задач преобразования изображений и текста в текст. Модель дополняет семейство LFM2-VL после версий 450M и 1.6B и стремится к повышению точности при сохранении быстрого профиля LFM2. Модель доступна на LEAP и Hugging Face по лицензии LFM Open License v1.0.
Интерфейс и формат подсказок
LFM2-VL-3B принимает перемежающиеся изображения и текст и выдаёт текстовые ответы. Используется шаблон, похожий на ChatML, где процессор вставляет метку
Архитектура
Стек сочетает языковую башню, чувствительную к форме визуальную башню и проектор. Языковая башня — LFM2-2.6B, гибридная архитектура с комбинацией свёрток и внимания. Визуальная башня — SigLIP2 NaFlex на 400M параметров, которая сохраняет нативные соотношения сторон и избегает искажений. Связка реализована как 2-слойный MLP с pixel unshuffle, который сжимает токены изображения перед слиянием с языковым пространством. Такая схема позволяет пользователям ограничивать бюджет визуальных токенов без дообучения модели.
Кодировщик обрабатывает нативные разрешения до 512×512. Более крупные изображения разбиваются на неперекрывающиеся патчи 512×512. Путь с уменьшенным изображением обеспечивает глобальный контекст при разбиении на тайлы. В карточке модели приведены примеры эффективного отображения в токены: 256×384 соответствует 96 токенам, а 1000×3000 соответствует 1,020 токенам. Пользовательские настройки модели позволяют задавать минимальное и максимальное число токенов изображения и переключатель тайлинга для регулировки скорости и качества на этапе инференса.
Рекомендации по инференсу
Карточка на Hugging Face содержит рекомендуемые параметры. Для генерации текста используются temperature 0.1, min p 0.15 и repetition penalty 1.05. Визуальные настройки рекомендуют min image tokens 64, max image tokens 256 и включённый разбиение изображений. Процессор автоматически применяет чат-шаблон и метку изображения. В примерах используется AutoModelForImageTextToText и AutoProcessor с точностью bfloat16.
Обучение и данные
Liquid AI описывает поэтапный подход к обучению. Сначала проводится joint mid training с плавной корректировкой соотношения текста и изображения, затем supervised fine tuning, ориентированный на понимание изображений. Источники данных включают крупные открытые датасеты и внутренние синтетические данные для расширения покрытия задач.
Результаты бенчмарков
Команда сообщает конкуретоспособные результаты среди лёгких открытых VLM. В частности MM-IFEval 51.83, RealWorldQA 71.37, MMBench dev en 79.81, POPE 89.01. Языковые возможности близки к LFM2-2.6B, с примерно 30% по GPQA и 63% по MMLU, что важно для задач, совмещающих восприятие и запросы знаний. Команда также отмечает расширенное мультиязычное визуальное понимание для английского, японского, французского, испанского, немецкого, итальянского, португальского, арабского, китайского и корейского.
Почему это важно для edge
Архитектура удерживает вычисления и память в рамках ограниченных ресурсов устройств. Токены изображения можно сжимать и ограничивать со стороны пользователя, поэтому пропускная способность предсказуема. SigLIP2 NaFlex сохраняет соотношения сторон, что улучшает детальное восприятие. Проектор снижает число токенов на стыке, улучшая токены в секунду. Также выпущена сборка GGUF для локального выполнения. Эти свойства полезны для робототехники, мобильных приложений и промышленных клиентов, которым требуется локальная обработка и строгие границы данных.
Ключевые выводы
- Компактный мультимодальный стек: LFM2-2.6B + 400M SigLIP2 NaFlex и 2-слойный MLP проектор.
- Обработка разрешений до 512×512 с неперекрывающейся разбивкой и путём миниатюры для глобального контекста; примерные соответствия токенов 256×384 -> 96 токенов, 1000×3000 -> 1,020 токенов.
- ChatML подобный ввод с меткой
, большой текстовый контекст, рекомендованные настройки декодирования и процессорные контролы для управления тайлингом и бюджетами токенов. - Конкурентные результаты для своего класса, открытые веса и GGUF сборка облегчают интеграцию на устройстве.
Для подробностей обратитесь к блогу Liquid AI и карточке модели на Hugging Face.