LFM2-2.6B-Exp от Liquid AI: Инновации в RL

Улучшение поведения модели с LFM2-2.6B-Exp

Liquid AI представила LFM2-2.6B-Exp, экспериментальную контрольную точку своей модели LFM2-2.6B, использующую чистое обучение с подкреплением на основе существующей архитектуры LFM2. Эта методология нацелена на улучшение выполнения инструкций, знаний и математических задач для компактной модели класса 3B, подходящей для развертывания на устройствах и на краю.

Позиционирование в семействе LFM2

LFM2 представляет второе поколение моделей Liquid Foundation, специально предназначенных для эффективного развертывания на различных устройствах, таких как телефоны и ноутбуки. Liquid AI описывает LFM2 как гибридную модель, объединяющую короткие LIV свёрточные блоки с блочными внимание по запросу, управляющимися мультипликативными воротами. В семействе моделей представлены различные размеры: LFM2-350M, LFM2-700M, LFM2-1.2B и LFM2-2.6B. Каждый размер поддерживает длину контекста в 32,768 токенов и размер словаря в 65,536, используя точность bfloat16. Модель 2.6B использует 30 слоёв—22 свёрточных и 8 слоёв внимания—обученных на бюджете в 10 триллионов токенов.

Архитектура и показатели производительности

LFM2-2.6B известен своей эффективностью, достигая 82.41% на GSM8K и 79.56% на IFEval, опережая многие 3B классовые модели, такие как Llama 3.2 и Gemma 3. Модель LFM2-2.6B-Exp сохраняет эту архитектуру, сосредоточивая внимание на изменениях поведения через этап обучения с подкреплением без изменения базовой архитектуры или методов предварительного обучения.

Чистое обучение с подкреплением

Эта экспериментальная контрольная точка сосредоточена на чистом обучении с подкреплением, целевого на выполнение инструкций, задачах знаний и математике. Основанная на контрольной точке LFM2-2.6B, модель проходит последовательное обучение RL, начиная с выполнения инструкций и расширяясь на знания и математику, исключая дополнительные шаги супервации или дистилляции.

Превосходство в бенчмаркинге на IFBench

Liquid AI подчеркивает свои успехи на IFBench, ключевом бенчмарке выполнения инструкций. LFM2-2.6B-Exp, как сообщается, превосходит модель DeepSeek R1-0528, имеющую 263 раза больше параметров, демонстрируя замечательные результаты производительности, учитывая ограничения по параметрам.

Инновации в архитектуре и возможностях

Модель использует 10 двойных свёрточных LIV блоков с коротким диапазоном и 6 блочных внимания по запросу, оптимизируя затраты кэша KV и обеспечивая быструю инференцию на стандартных потребительских графических процессорах. Данные для предварительного обучения составляют примерно 75% английского, 20% многоязычного и 5% кода, поддерживая языки, включая арабский, китайский, французский, немецкий, японский, корейский и испанский. Ее шаблон, похожий на ChatML, облегчает интеграцию инструментов, улучшая возможности модели без необходимости в индивидуальной разработке подсказок.

Основные выводы

LFM2-2.6B-Exp включает этап чистого обучения с подкреплением в предобученную, предпочтительно согласованную модель для улучшения выполнения инструкций, знаний и математики.
Основная модель LFM2-2.6B обладает гибридной архитектурой и поддерживает значительный параметрический бюджет, достигая высоких показателей в бенчмарках.
Обладая высоким уровнем в 3B классе, экспериментальная контрольная точка RL улучшает производительность в задачах выполнения инструкций и математики без изменения существующей архитектуры.
Модель показывает высокие результаты в условиях ограниченных развертываний, подтверждая свою эффективность в IFBench по сравнению с крупными моделями.
Поддерживаемая через различные фреймворки, LFM2-2.6B-Exp подходит для разнообразных приложений, включая агентные системы и виртуальных ассистентов.