LFM2-VL-3B: 3-миллиардная мультимодальная модель Liquid AI для edge-устройств

Что представляет собой LFM2-VL-3B

Liquid AI выпустила LFM2-VL-3B, 3-миллиардную визуально-языковую модель для задач преобразования изображений и текста в текст. Модель дополняет семейство LFM2-VL после версий 450M и 1.6B и стремится к повышению точности при сохранении быстрого профиля LFM2. Модель доступна на LEAP и Hugging Face по лицензии LFM Open License v1.0.

Интерфейс и формат подсказок

LFM2-VL-3B принимает перемежающиеся изображения и текст и выдаёт текстовые ответы. Используется шаблон, похожий на ChatML, где процессор вставляет метку , которая во время выполнения заменяется на закодированные токены изображения. По умолчанию длина текстового контекста составляет 32,768 токенов. Эти детали помогают разработчикам воспроизвести оценки и интегрировать модель в существующие мультимодальные пайплайны.

Архитектура

Стек сочетает языковую башню, чувствительную к форме визуальную башню и проектор. Языковая башня — LFM2-2.6B, гибридная архитектура с комбинацией свёрток и внимания. Визуальная башня — SigLIP2 NaFlex на 400M параметров, которая сохраняет нативные соотношения сторон и избегает искажений. Связка реализована как 2-слойный MLP с pixel unshuffle, который сжимает токены изображения перед слиянием с языковым пространством. Такая схема позволяет пользователям ограничивать бюджет визуальных токенов без дообучения модели.

Кодировщик обрабатывает нативные разрешения до 512×512. Более крупные изображения разбиваются на неперекрывающиеся патчи 512×512. Путь с уменьшенным изображением обеспечивает глобальный контекст при разбиении на тайлы. В карточке модели приведены примеры эффективного отображения в токены: 256×384 соответствует 96 токенам, а 1000×3000 соответствует 1,020 токенам. Пользовательские настройки модели позволяют задавать минимальное и максимальное число токенов изображения и переключатель тайлинга для регулировки скорости и качества на этапе инференса.

Рекомендации по инференсу

Карточка на Hugging Face содержит рекомендуемые параметры. Для генерации текста используются temperature 0.1, min p 0.15 и repetition penalty 1.05. Визуальные настройки рекомендуют min image tokens 64, max image tokens 256 и включённый разбиение изображений. Процессор автоматически применяет чат-шаблон и метку изображения. В примерах используется AutoModelForImageTextToText и AutoProcessor с точностью bfloat16.

Обучение и данные

Liquid AI описывает поэтапный подход к обучению. Сначала проводится joint mid training с плавной корректировкой соотношения текста и изображения, затем supervised fine tuning, ориентированный на понимание изображений. Источники данных включают крупные открытые датасеты и внутренние синтетические данные для расширения покрытия задач.

Результаты бенчмарков

Команда сообщает конкуретоспособные результаты среди лёгких открытых VLM. В частности MM-IFEval 51.83, RealWorldQA 71.37, MMBench dev en 79.81, POPE 89.01. Языковые возможности близки к LFM2-2.6B, с примерно 30% по GPQA и 63% по MMLU, что важно для задач, совмещающих восприятие и запросы знаний. Команда также отмечает расширенное мультиязычное визуальное понимание для английского, японского, французского, испанского, немецкого, итальянского, португальского, арабского, китайского и корейского.

Почему это важно для edge

Архитектура удерживает вычисления и память в рамках ограниченных ресурсов устройств. Токены изображения можно сжимать и ограничивать со стороны пользователя, поэтому пропускная способность предсказуема. SigLIP2 NaFlex сохраняет соотношения сторон, что улучшает детальное восприятие. Проектор снижает число токенов на стыке, улучшая токены в секунду. Также выпущена сборка GGUF для локального выполнения. Эти свойства полезны для робототехники, мобильных приложений и промышленных клиентов, которым требуется локальная обработка и строгие границы данных.

Ключевые выводы

Для подробностей обратитесь к блогу Liquid AI и карточке модели на Hugging Face.