Liquid AI Запускает Модель LFM2.5-1.2B-Thinking
Представляем LFM2.5-1.2B-Thinking, компактную модель для рассуждений на устройствах.
Обзор LFM2.5-1.2B-Thinking
Liquid AI выпустила LFM2.5-1.2B-Thinking, мощную модель для рассуждений с 1.2 миллиарда параметров, способную полностью работать оффлайн на мобильных устройствах, подстраиваясь под 1 ГБ оперативной памяти. Это развитие подчеркивает значительное изменение, так как возможности, которые ранее требовали больших центров обработки данных, теперь могут без проблем развертываться на потребительском оборудовании, акцентируя внимание на структурированных рассуждениях, использовании инструментов и математических приложениях, а не на основном общении.
Положение в Семье LFM2.5 и Основные Характеристики
LFM2.5-1.2B-Thinking является частью семейства LFM2.5 Моделей Базового Фонда Liquid, улучшая исходный дизайн LFM2 с учетом дополнительных тренировок и многослойного обучения с подкреплением для развертывания на краю.
Ключевые Спецификации:
- Параметры: 1.17B, классифицируемая как модель класса 1.2B
- Слои: 16, включая 10 двойных гейтов LIV и 6 GQA блоков
- Бюджет Обучения: 28 триллионов токенов
- Длина Контекста: 32,768 токенов
- Размер Словаря: 65,536
- Поддерживаемые Языки: Английский, арабский, китайский, французский, немецкий, японский, корейский, испанский
Поведение Упор на Рассуждения и Мысленные Треки
Вариант Thinking специально обучен для надежных рассуждений. Во время вывода он генерирует внутренние мысленные следы перед окончательным ответом. Эти следы представляют промежуточные шаги, позволяющие планировать взаимодействия с инструментами, подтверждая частичные результаты и выполняя многошаговые процессы.
Команда Liquid AI рекомендует эту модель для широкого диапазона задач, включая рабочие процессы по извлечению данных и увеличение извлечения (RAG), где необходимы четкие рассуждения и промежуточные проверки.
Бенчмарки По Сравнению с Другими Моделями
Команда Liquid AI провела бенчмаркинг LFM2.5-1.2B-Thinking по сравнению с другими моделями класса 1B с использованием набора тестов на рассуждение и инструкции. В частности, она показала значительные улучшения в трех ключевых областях:
- Математическое рассуждение выросло с примерно 63 до 88 по более высокой шкале MATH 500.
- Следование инструкциям улучшилось с 61 до 69 по Multi IF.
- Использование инструментов увеличилось с 49 до 57 по BFCLv3.
В прямом сравнению он показывает конкурентоспособность с Qwen3-1.7B, используя примерно на 40% меньше параметров и сохраняя высокую производительность.
Рецепт Обучения и Снижение Риска Дум-Лупинга
Модели рассуждений часто сталкиваются с проблемами, такими как дум-лупинг, когда они повторяют фрагменты своих мыслей вместо завершения ответа. Для борьбы с этим LFM2.5-1.2B-Thinking использует многослойный тренинговый процесс для эффективного снижения таких шаблонов.
- Начинается с промежуточного обучения, которое включает в себя мысленные следы, чтобы модель усвоила подход сначала рассуждать, затем отвечать.
- Затем происходит 监督ная дообучение с синтетическими цепями для улучшения генерации мыслительных цепей.
- Наконец, реализуется выравнивание предпочтений и RLVR, чтобы минимизировать повторяющиеся выходные данные с 15.74% до 0.36% на репрезентативных примерах.
Производительность Вывода и Аппаратный След
Ключевой целью дизайна было добиться быстрого вывода с небольшой памятью. LFM2.5-1.2B-Thinking может декодировать около 239 токенов в секунду на процессоре AMD и 82 токена в секунду на мобильном NPU, работая при этом под 1 ГБ памяти.
Следует отметить, что модель демонстрирует значительную производительность на различных платформах, поддерживая рабочие среды, такие как llama.cpp, MLX и vLLM.
Ключевые Выводы
- LFM2.5-1.2B-Thinking работает при 1.17B параметрах с длиной контекста 32,768 токенов и помещается под 1 ГБ.
- Модель ориентирована на ясные мыслительные следы, поддерживая агентные задачи, извлечение данных и RAG.
- Она достигает высоких показателей, например, 87.96 на MATH 500 и 85.60 на GSM8K, эффективно конкурируя с более крупными моделями, такими как Qwen3-1.7B.
- Тренировочный процесс эффективно снижает риски дум-лупинга, повышая интерактивность и вовлеченность в приложениях.
- Универсальна для развертывания на NPU и CPU от AMD и Qualcomm, доступна в форматах GGUF, ONNX и MLX для легкой загрузки с платформ, таких как Hugging Face.
Провайдеры Хостинга / Развертывание
Вы можете получить доступ или разместить модель LFM2.5-1.2B-Thinking через следующие провайдеры:
Провайдеры Облака и API
Репозитории для Самостоятельного Хостинга
Switch Language
Read this article in English