Grok-4-Fast: единая модель xAI с 2M-токенным окном и встроенным RL для инструментов
Что такое Grok-4-Fast
xAI представила Grok-4-Fast — оптимизированную по стоимости модель-преемник Grok-4, которая объединяет ‘reasoning’ и ’non-reasoning’ поведения в одном наборе весов. Вместо переключения между разными моделями для длинных рассуждений и кратких ответов, Grok-4-Fast использует единое пространство весов и управляется системными подсказками. Модель поддерживает окно контекста в 2 миллиона токенов и встроенное reinforcement learning для использования инструментов, которое решает, когда просматривать веб, выполнять код или вызывать внешние API.
Унифицированная архитектура и управление подсказками
Ранее релизы Grok разделяли длинные рассуждения и короткие ответы между разными моделями. Grok-4-Fast устраняет это разделение, объединив поведение в одной модели. Для realtime-приложений это означает снижение задержек, вызванных переключением моделей, и уменьшение расхода токенов, что напрямую сокращает стоимость при массовых сценариях использования, таких как поиск, интерактивное кодирование и ассистивные агенты. Поведение модели переключается через системные подсказки, что упрощает управление режимами ‘reasoning’ и ’non-reasoning’.
RL для использования инструментов и результаты в агентных задачах
Модель обучалась end-to-end с использованием tool-use reinforcement learning, что позволяет ей автоматически выбирать, когда обращаться к браузеру, запускать код или вызывать инструменты. Это отражается в результатах на агентных и поисковых бенчмарках: BrowseComp 44.9%, SimpleQA 95.0%, Reka Research 66.0%. xAI также отмечает улучшения на китайских вариантах бенчмарков, например BrowseComp-zh 51.2%.
В частных тестах на LMArena xAI сообщает, что поисковая версия grok-4-fast-search (кодовое имя ‘menlo’) заняла первое место в Search Arena с 1163 Elo, а текстовая версия (кодовое имя ’tahoe’) — восьмое место в Text Arena, сопоставимо с grok-4-0709.
Эффективность, бенчмарки и ‘плотность интеллекта’
На внутренних и публичных тестах Grok-4-Fast демонстрирует показатели уровня лидеров при снижении расхода токенов. Отчетные pass@1: 92.0% (AIME 2025, без инструментов), 93.3% (HMMT 2025, без инструментов), 85.7% (GPQA Diamond), 80.0% (LiveCodeBench Jan–May). xAI утверждает, что модель использует примерно на 40% меньше ’thinking’ токенов в среднем по сравнению с Grok-4, что компания называет повышением ‘intelligence density’. В сочетании с новой моделью тарификации это, по их оценке, даёт около 98% снижения цены для достижения тех же результатов на бенчмарках Grok-4.
Развертывание и цены
Grok-4-Fast доступен всем пользователям в режимах Fast и Auto на вебе и мобильных устройствах. В режиме Auto система будет выбирать Grok-4-Fast для сложных запросов, чтобы снизить задержки без потери качества. Впервые пользователи бесплатного уровня получают доступ к новому модельному слою xAI.
Для разработчиков доступны два SKU: grok-4-fast-reasoning и grok-4-fast-non-reasoning, оба с 2M-токенным контекстом. Тарифы API: $0.20 за 1M входных токенов для контекста <128k, $0.40 за 1M входных токенов для контекста >=128k, $0.50 за 1M выходных токенов для вывода <128k, $1.00 за 1M выходных токенов для вывода >=128k, и $0.05 за 1M кэшированных входных токенов.
Почему это важно для поиска и агентных задач
Большое окно контекста, единая модель с управлением через подсказки и встроенный tool-use RL делают Grok-4-Fast привлекательным для высоконагруженных поисковых и агентных рабочих нагрузок. Снижение задержек и расхода токенов делает модель более выгодной в продакшене, где критичны скорость и стоимость. Первичные публичные сигналы и профиль бенчмарков подтверждают, что xAI добился сопоставимой точности с Grok-4 при заметно меньшем расходе токенов.
Технические акценты
- Унифицированная модель с 2M-токеновым окном контекста.
- End-to-end обучение с tool-use reinforcement learning.
- Примерно 40% меньше ’thinking’ токенов по сравнению с Grok-4.
- Тарификация API с выгодой для кешированных входных токенов.
Grok-4-Fast предоставляет возможности уровня Grok-4 в одной, управляемой подсказками модели, оптимизированной для поиска и агентных сценариев и направленной на снижение задержек и себестоимости операций. За дополнительными техническими деталями можно обратиться к заметкам xAI и документации для разработчиков.