Kimi K2 Thinking: агент Moonshot AI на 1 трлн параметров, выполняющий 200–300 последовательных вызовов инструментов

Что такое Kimi K2 Thinking

Moonshot AI представила Kimi K2 Thinking — открытый thinking-агент, построенный на архитектуре Kimi K2 Mixture of Experts (MoE). Модель предназначена для попеременного ведения цепочки рассуждений и динамических вызовов инструментов во время инференса: читать, думать, вызвать инструмент и продолжить думать на протяжении сотен шагов без участия человека. Подробнее на странице проекта: https://moonshotai.github.io/Kimi-K2/thinking.html.

Архитектура и основные характеристики

K2 Thinking унаследовала MoE-дизайн Kimi K2 и описывается как система с 1 триллионом параметров и 32 миллиардами активируемых параметров на токен. В архитектуру входят 61 слой (включая один dense-слой), 384 эксперта с выбором 8 экспертов на токен и одним общим экспертом, 64 головы внимания, скрытое внимание размером 7168 и MoE скрытое измерение 2048 на эксперта. Словарь — 160K токенов, контекстное окно — 256K токенов. Механизм внимания — Multi-head Latent Attention, функция активации — SwiGLU.

Тестовое масштабирование и длительные рассуждения

Главная цель K2 Thinking — тестовое масштабирование: модель тренируется расширять глубину рассуждений и количество вызовов инструментов при усложнении задач, а не полагаться на короткие фиксированные цепочки мыслей. Moonshot сообщает, что K2 Thinking сохраняет связное поведение примерно на 200–300 последовательных вызовах инструментов и устанавливает новые результаты на Humanity's Last Exam и BrowseComp при больших бюджетах токенов.

Протоколы тестирования включают такие бюджеты токенов: 96K думающих токенов для ряда задач (HLE, AIME25, HMMT25, GPQA), 128K для IMO AnswerBench и других сложных задач, и 32K токенов дополнения для Longform Writing. Лимиты шагов различаются: для HLE максимум шагов — 120 с 48K бюджетом рассуждений на шаг, для агентных поисковых задач допускаются до 300 шагов с 24K бюджета на шаг.

Бенчмарки: рассуждения, агентный поиск и кодинг

K2 Thinking показывает конкурентные и лидирующие результаты по многим тестам. Некоторые из приведенных результатов:

Humanity's Last Exam (без инструментов): 23.9; с инструментами: 44.9; heavy setting: 51.0.
AIME25 с Python: 99.1; HMMT25 с Python: 95.1.
IMO AnswerBench: 78.6; GPQA: 84.5.

В задачах агентного поиска с инструментами: 60.2 на BrowseComp, 62.3 на BrowseComp ZH, 56.3 на Seal 0, 47.4 на FinSearchComp T3 и 87.0 на Frames. По общим знаниям: 84.6 на MMLU Pro, 94.4 на MMLU Redux, 73.8 на Longform Writing, 58.0 на HealthBench.

По программированию указаны результаты: 71.3 на SWE bench Verified с инструментами, 61.1 на SWE bench Multilingual с инструментами, 41.9 на Multi SWE bench с инструментами, 44.8 на SciCode, 83.1 на LiveCodeBenchV6, 48.7 на OJ Bench (C++), 47.1 на Terminal Bench с симулированными инструментами.

Moonshot также описывает Heavy Mode, который одновременно запускает восемь траекторий и агрегирует их, чтобы повысить точность в некоторых задачах рассуждений.

Нативная INT4 квантизация и развертывание

K2 Thinking выпускается как нативная INT4 модель. Команда применяет Quantization Aware Training на посттренировочном этапе и использует INT4 квантизацию весов в MoE-компонентах. Это позволяет получить примерно 2x ускорение генерации в низколатентном режиме при сохранении уровня бенчмарков. Все заявленные результаты получены в формате INT4.

Контрольные точки сохраняются в сжатом формате тензоров и могут быть распакованы в форматы более высокой точности, такие как FP8 или BF16, с помощью официальных инструментов. Рекомендуемые движки для инференса: vLLM, SGLang и KTransformers. K2 Thinking уже доступна в режиме чата на kimi.com и через API Moonshot; в планах — агентный режим для полного доступа к поведению при использовании инструментов.

Значение для open-source reasoning-агентов

Kimi K2 Thinking показывает, что открытые reasoning-агенты с очень большими контекстными окнами и длительным использованием инструментов становятся практически применимыми. Сочетание триллиона параметров MoE, контекстного окна 256K, нативной INT4 тренировки и тестового масштабирования указывает на то, что агентные системы, способные выполнять сотни последовательных вызовов инструментов, перестают быть только исследовательскими демонстрациями и превращаются в рабочую инфраструктуру.