K2 Think: 32B открытая система рассуждений, соперничающая с гораздо большими моделями

сентября 9, 2025 · 3 min

Что такое K2 Think

K2 Think — это 32-миллиардная открытая система для рассуждений, выпущенная исследователями MBZUAI и G42. Проект включает полностью открытые веса, данные и код, а также тестовый вычислительный каркас, который сочетает длинные цепочки рассуждений в SFT, обучение с подкреплением с верифицируемыми наградами, агентное планирование, масштабирование во время инференса и аппаратно-ориентированные оптимизации. Авторы делают ставку на параметрическую эффективность: компактный бэкенд плюс постобучение и приемы во время вывода дают производительность уровня передового подхода по математике и конкурентоспособные результаты в коде и науке.

Архитектура и шесть опорных методов

Система строится на базе открытого Qwen2.5-32B, после чего проводится постобучение и добавляется легковесный тестовый вычислительный каркас. Ключевой рецепт объединяет шесть столпов, которые повышают pass@1 на соревновательных задачах и при этом контролируют длину отклика и задержку:

Длинные цепочки рассуждений в SFT
RL с верифицируемыми наградами (RLVR)
Агентное планирование до решения
Тестовое масштабирование через best-of-N с верификаторами
Спекулятивная декодировка
Инференс на вафельном масштабном железе

Каждый столп решает отдельную задачу по качеству, эффективности или эксплуатации и настроен так, чтобы дополнять философию “мало, но быстро”.

Длинные цепочки рассуждений в SFT

Фаза 1 использует кураторские длинные трассы chain-of-thought и пары инструкция/ответ, покрывающие математику, код, науку и диалоги (AM-Thinking-v1-Distilled). Это учит модель явным промежуточным рассуждениям и единообразному формату вывода. Быстрые приросты pass@1 наблюдаются уже на первой половине эпохи, с хорошей стабилизацией по основным математическим срезам до RL.

RL с верифицируемыми наградами

K2 Think применяет RLVR с использованием библиотеки verl и GRPO-подобного алгоритма на датасете Guru (приблизительно 92k промптов) по шести доменам: математика, код, наука, логика, симуляция и табличные задачи. Исследователи отмечают важную дилемму: запуск RL с сильного SFT-чекпоинта дает скромные абсолютные улучшения и может застрять, тогда как запуск RL с базовой модели дает большие относительные приросты. Дополнительный аблейшн показал, что сокращение максимальной длины контекста в многоэтапном RL (например, 32k → 16k) может нарушить выученные паттерны рассуждений и не восстановить SFT-базу.

Агентное планирование и масштабирование во время инференса

Во время вывода система сначала генерирует компактный план, затем выполняет best-of-N (обычно N=3) с верификаторами и выбирает наиболее вероятный правильный ответ. Этот подход повышает качество итогового ответа и одновременно сокращает длину финального вывода по сравнению с посттренировочным чекпоинтом. По бенчмаркам наблюдаются сокращения среднего числа токенов (до ~11.7% на отдельных срезах), что снижает задержку и стоимость.

Спекулятивная декодировка и вафельный инференс

K2 Think нацелен на инференс на Cerebras Wafer-Scale Engine с использованием спекулятивной декодировки и заявляет пропускную способность порядка ~2,000 токенов/с на запрос. Это делает тестовый каркас практичным для продакшен- и исследовательских целей и подтверждает подход “маленькая, но быстрая”.

Протокол оценки

Оценка охватывает соревновательную математику (AIME'24, AIME'25, HMMT'25, Omni-MATH-HARD), код (LiveCodeBench v5, SciCode) и научные задачи (GPQA-Diamond, HLE). Стандартная конфигурация включает макс длину генерации 64k токенов, температуру 1.0, top-p 0.95, маркер остановки , и каждая оценка усредняется по 16 независимым pass@1 для снижения разброса результатов.

Результаты

Математический микро-средний результат составляет 67.99, что выводит K2 Think в лидеры среди моделей с открытыми весами и ставит в ряд с более крупными системами. Отдельные результаты: AIME'24 90.83, AIME'25 81.24, HMMT'25 73.75, Omni-HARD 60.73. По коду LiveCodeBench v5 — 63.97, что превосходит однотипные модели и некоторые более крупные открытые модели. SciCode показывает 39.2/12.0 (sub/main). По науке GPQA-Diamond 71.08 и HLE 9.95 подтверждают, что модель не ограничивается только математикой.

Ключевые параметры: бэкенд Qwen2.5-32B, RL-данные — Guru (~92k промптов), инференс-каркас — план до генерации и BoN с верификаторами, целевая пропускная способность на Cerebras WSE около 2k ток/с. Безопасность (Safety-4 macro) указана на уровне 0.75.

Открытый релиз и значение работы

K2 Think опубликован полностью открытым: веса, данные, код развертывания и инструменты тестового оптимизационного слоя. Проект демонстрирует, что сочетание посттренировки, вычислительных приемов во время вывода и аппаратно-ориентированного инференса может существенно сократить разрыв с более крупными проприетарными системами, при этом оставаясь удобным для дообучения и сервинга. Авторы также предоставляют ссылки на технический отчет, страницу модели на Hugging Face и GitHub с руководствами и ноутбуками.