OpenAI представляет GPT-5.1-Codex-Max: автономная модель для долгих сеансов кодирования с компакцией

Что такое GPT-5.1-Codex-Max

OpenAI выпустила GPT-5.1-Codex-Max, специализированную модель для агентного кодирования, рассчитанную на длительные инженерные задачи, которые могут охватывать миллионы токенов и длиться несколько часов. Модель уже доступна в интерфейсах Codex: CLI, расширении для IDE, облачных интеграциях и инструментах для ревью кода; доступ по API ожидается позже.

На чем модель обучалась и для чего она предназначена

GPT-5.1-Codex-Max основана на обновленной базе для рассуждений, обученной на агентных задачах в областях разработки ПО, математики, исследований и других. Поверх этой базы модель прошла дополнительное обучение на реальных рабочих нагрузках инженеров: создании pull request, ревью кода, фронтенд-разработке и вопросах для разработчиков. OpenAI позиционирует модель для передовых задач кодирования и агентных рабочих процессов, а не для общих разговоров — она рекомендована именно для сред типа Codex.

Поддержка Windows и поведение в CLI

Это первая модель Codex, специально обученная работать в средах Windows. В обучение вошли задачи, улучшающие поведение модели в Codex CLI и песочнице, включая более безопасное исполнение команд и работу с файлами. Это делает модель более предсказуемым помощником при запуске команд и манипуляции проектной структурой.

Компакция и длительные сеансы работы

Ключевая возможность GPT-5.1-Codex-Max — компакция. Модель по прежнему функционирует в рамках фиксированного окна контекста, но нативно обучена обрезать и сжимать историю взаимодействия, сохраняя важное состояние задачи, чтобы продолжать работу через несколько окон контекста. Когда сессия приближается к пределу контекста, модель автоматически компактирует состояние в новое окно, сохраняет ключевую информацию и продолжает выполнение. Этот цикл повторяется до завершения задачи.

OpenAI приводит внутренние прогоны, где GPT-5.1-Codex-Max автономно работала над одной задачей более 24 часов, неоднократно улучшая реализацию, исправляя падающие тесты и в итоге достигая успешного результата.

Контроль рассуждений, скорость и экономия токенов

Модель наследует контроль рассуждений из GPT-5.1, но настроенный для кодирующих агентов. Параметр reasoning effort задает, сколько «думательных» токенов модель тратит перед тем, как выдать ответ. На SWE-bench Verified GPT-5.1-Codex-Max при среднему уровню reasoning effort показывает более высокую точность, чем GPT-5.1-Codex при том же уровне, при этом используя примерно на 30% меньше думательных токенов. Для задач без строгих ограничений по задержке добавлен режим Extra High, обозначенный как xhigh, который позволяет модели дольше проводить внутренние рассуждения для достижения лучших ответов. В большинстве случаев рекомендован режим medium.

С включенной компакцией наблюдаются явные преимущества в бенчмарках. При сравнении GPT-5.1-Codex на high и GPT-5.1-Codex-Max на xhigh OpenAI приводит результаты на 500 задачах SWE-bench Verified: 73.7% против 77.9% в пользу Codex-Max. Для SWE-Lancer IC SWE — 66.3% против 79.9%, для Terminal-Bench 2.0 — 52.8% против 58.1%. Terminal-Bench 2.0 выполняется внутри оболочки Codex CLI и все оценки проводились с включенной компакцией.

В качественных тестах GPT-5.1-Codex-Max генерировала фронтенд решения с функциональностью и визуальным качеством, сопоставимыми с GPT-5.1-Codex, но с меньшими общими затратами токенов за счет более эффективных траекторий рассуждений.

Доступность и сценарии применения

Сейчас модель доступна в Codex CLI, расширении для IDE, облачных интеграциях и инструментах ревью кода. API доступ появится позднее. GPT-5.1-Codex-Max предназначена для рабочих процессов, требующих длительного автономного прогресса: разработка долгоживущих фич, рефакторинг нескольких файлов, долгие исправления тестов и другие задачи, где важно сохранять и сжимать состояние между окнами контекста.

Влияние на команды разработчиков

Модель демонстрирует движение к практическому внедрению долгосрочного агентного кодирования в инструменты разработчика, а не только к одиночным правкам. Компакция, управление интенсивностью рассуждений и улучшение результатов на передовых тестах делают GPT-5.1-Codex-Max важным кейсом для интеграции длительных автономных прогонов в рабочие конвейеры. Рамки Preparedness Framework и песочница Codex, вероятно, станут ключевыми элементами при переводе этих возможностей в продакшн.