Liquid AI представляет LFM2.5: Новый компактный семейство AI моделей

Введение в LFM2.5

Liquid AI представила LFM2.5 – новое поколение небольших базовых моделей, построенных на архитектуре LFM2, которые предназначены для развертывания на устройствах и на краю. Это семейство моделей включает LFM2.5-1.2B-Base и LFM2.5-1.2B-Instruct, а также варианты на японском языке, визионном языке и аудио языке. Модели выпущены с открытыми весами на Hugging Face и доступны через платформу LEAP, представляя собой значительный шаг вперед в технологии компактных AI.

Архитектура и рецепт обучения

LFM2.5 сохраняет гибридную архитектуру LFM2, предназначенную для быстрого и эффективного использования памяти при вычислениях на ЦП и НПУ, при этом масштабируя данные и посттренировочные пайплайны. Предварительное обучение для базового шасси на 1,2 миллиарда параметров увеличено с 10T до 28T токенов. Вариант Instruct проходит этапы супервизированного тонкого обучения, оценки предпочтений и многомасштабного обучения с подкреплением, ориентированного на соблюдение инструкций, использование инструментов, математику и логическое мышление.

Производительность текстовых моделей

LFM2.5-1.2B-Instruct – это ключевая универсальная текстовая модель. Команда Liquid AI сообщает о результатах на бенчмарках GPQA, MMLU Pro, IFEval и IFBench, достигая 38.89 на GPQA и 44.35 на MMLU Pro. Конкурирующие открытые модели класса 1B, такие как Llama-3.2-1B Instruct и Gemma-3-1B, показывают значительно более низкие результаты.

На IFEval и IFBench, которые учитывают качество многошагового выполнения инструкций и вызова функций, LFM2.5-1.2B-Instruct демонстрирует результаты 86.23 и 47.33 соответственно, опережая другие базовые модели класса 1B.

Оптимизированный вариант для японского языка

LFM2.5-1.2B-JP специально оптимизирован для японского языка и нацелен на задачи, такие как JMMLU, M-IFEval и GSM8K на японском. Этот вариант эффективно конкурирует с более мелкими многоязычными моделями, такими как Qwen3-1.7B, и превосходит модели общего назначения на локализованных бенчмарках.

Модель визионного языка

LFM2.5-VL-1.6B - это обновленная модель визионного языка, использующая LFM2.5-1.2B-Base в качестве языкового ядра. Включая визуальную башню, она специализируется на задачах, таких как понимание документов и многозначительное понимание изображений, адаптирована под бенчмарки визуального вывода и OCR.

Аудио-языковая модель

LFM2.5-Audio-1.5B - это аудио-языковая модель, поддерживающая как текстовые, так и аудио вводы/выводы. Она представлена как модель Audio to Audio с детокенизатором, которая в восемь раз быстрее своей предшественницы, сохраняя при этом точность на ограниченном оборудовании. Эта модель поддерживает интерливированную генерацию для приложений в реальном времени и последовательную генерацию для автоматического распознавания речи и текстовой речи, обученную с учетом квантизации для обеспечения производительности на устройствах с ограниченной вычислительной мощностью.

Ключевые выводы

LFM2.5 – это гибридное семейство моделей на 1,2 миллиарда, построенное на архитектуре LFM2 и включающее варианты Base, Instruct, Japanese, Vision Language и Audio Language, все они доступны с открытыми весами.
Предварительное обучение увеличено с 10T до 28T токенов, причём модель Instruct внедряет несколько передовых методов обучения.
LFM2.5-1.2B-Instruct достигает высоких показателей на текстовых бенчмарках, опережая конкурирующие модели по важным задачам.
Специализированные мультимодальные и региональные варианты расширяют возможности для развертывания на краевых устройствах.