Microsoft Представляет Phi-4-mini-Flash-Reasoning: Быстрая и Компактная Модель для Сложных Задач с Длинным Контекстом

Новая модель Phi-4-mini-Flash-Reasoning

Microsoft выпустила Phi-4-mini-Flash-Reasoning — легкую языковую модель, оптимизированную для эффективного анализа длинных контекстов. Эта модель с 3.8 миллиардами параметров является дистиллированной версией Phi-4-mini, дообученной для решения сложных задач, таких как математические вычисления и многошаговые вопросы с ответами. Она доступна на Hugging Face и использует инновационную архитектуру SambaY с гибридным декодером, обеспечивая высокую производительность и скорость до 10 раз выше, чем у предшественника, при генерации длинных текстов.

Архитектура SambaY: сочетание Gated Memory и гибридного декодирования

В основе Phi-4-mini-Flash-Reasoning лежит архитектура SambaY, которая объединяет модели пространства состояний (SSM) с слоями внимания через легковесный модуль Gated Memory Unit (GMU). Это позволяет эффективно обмениваться памятью между слоями и существенно снижает задержки при выводе на длинных контекстах.

В отличие от классических трансформеров, требующих большое количество памяти для вычислений внимания, SambaY использует гибридный подход. В самодекодере применяется архитектура Samba (гибрид SSM), а примерно половина слоев кросс-внимания в кросс-декодере заменяется GMU. GMU выполняют элементарные операции управления, повторно используя скрытое состояние из последнего SSM-слоя, что исключает избыточные вычисления. Это снижает сложность декодирования до линейной и уменьшает нагрузку на ввод-вывод, обеспечивая значительное ускорение.

Обучение и улучшенные способности к рассуждению

Модель была предобучена на 5 триллионах токенов из синтетических и отфильтрованных реальных данных, как и остальные модели семейства Phi-4-mini. После предобучения прошла многоступенчатое обучение с учителем (SFT) и оптимизацию на основе прямых предпочтений (DPO) с использованием наборов инструкций, ориентированных на задачи рассуждения. Важно отметить, что в отличие от Phi-4-mini-Reasoning, здесь не использовалось обучение с подкреплением с человеческой обратной связью (RLHF).

Тем не менее, Phi-4-mini-Flash-Reasoning превосходит своего предшественника в сложных задачах. Например, на бенчмарке Math500 она достигает 92.45% точности pass@1, опережая Phi-4-mini-Reasoning (91.2%) и другие открытые модели, такие как Qwen-1.5B и Bespoke-Stratos-7B. Также модель показывает более 52% на AIME24.

Такой прогресс связан с возможностью генерировать длинные цепочки рассуждений (Chain-of-Thought) с поддержкой контекста до 64 тысяч токенов и оптимизацией под vLLM. В тестах с 2000 токенами запроса и 32000 токенами генерации производительность достигает до 10 раз выше, чем у предыдущей версии.

Эффективная работа с длинными контекстами

Эффективность модели подтверждается и на практике. Благодаря гибридному декодеру Phi-4-mini-Flash-Reasoning показывает конкурентоспособные результаты на бенчмарках Phonebook и RULER. Даже с небольшим размером окна внимания в 256 токенов модель сохраняет высокую точность поиска, что говорит о хорошем захвате долгосрочных зависимостей с помощью SSM и GMU.

Архитектурные новшества сокращают вычислительные и памятьные затраты. В процессе декодирования GMU заменяют операции внимания, снижая сложность с O(N·d) до O(d) на токен, где N — длина последовательности, а d — размер скрытого слоя. Это позволяет работать в режиме реального времени даже в многотуровых диалогах и с большими документами.

Открытость и области применения

Microsoft опубликовала веса и конфигурации модели на Hugging Face. Phi-4-mini-Flash-Reasoning поддерживает контексты до 64 тысяч токенов и оптимизирована для работы на стандартных рантаймах Hugging Face и vLLM с использованием GPU A100. Возможные сферы применения включают:

Математические задачи уровня SAT и AIME
Многошаговые вопросы с ответами
Анализ юридических и научных документов
Автономные агенты с долгосрочной памятью
Высокопроизводительные чат-системы

Сочетание открытого доступа, высокого качества рассуждений и быстрой работы делает эту модель привлекательной для использования в условиях ограниченных вычислительных ресурсов и сложных задач.

Итоги

Phi-4-mini-Flash-Reasoning демонстрирует, как гибридные архитектурные решения с применением SSM и эффективных управляющих блоков могут значительно улучшить качество рассуждений без увеличения размера модели и затрат. Эта модель задаёт новое направление для эффективного языкового моделирования с длинным контекстом, позволяя создавать решения для реального времени и масштабируемые альтернативы коммерческим LLM.

Для подробностей ознакомьтесь с публикацией, кодом и моделью на Hugging Face. Подписывайтесь на проект в Twitter, YouTube и Spotify, присоединяйтесь к сообществу ML на Reddit и оформляйте подписку на рассылку новостей.