OpenAI запустила GPT-5.2: Продвинутый агент и модель программирования

Обзор GPT-5.2

OpenAI только что представила GPT-5.2, свою самую продвинутую модель для профессиональной работы и долгосрочных агентов, которая внедряется в ChatGPT и API.

GPT-5.2 включает три варианта: в ChatGPT пользователи работают с ChatGPT-5.2 Instant, Thinking и Pro. В API предлагаются модели gpt-5.2-chat-latest, gpt-5.2 и gpt-5.2-pro. Вариант Instant ориентирован на повседневную помощь, Thinking предназначен для сложных многоэтапных задач и агентов, в то время как Pro выделяет большие вычислительные ресурсы для технических и аналитических задач.

Оценка по GDPval и SWE Bench

GPT-5.2 Thinking спроектирована как основной рабочий инструмент для реальных задач знаний. На GDPval, оценивании знаний в различных индустриях, она выигрывает или сравнивается с профессионалами в 70.9% кейсов. Более того, она работает с более чем 11-кратной скоростью по сравнению с экспертами, при этом затраты остаются ниже 1%. Это доверие дает возможность командам генерировать важные артефакты, такие как презентации, таблицы, графики и диаграммы на основе структурированных инструкций.

Внутренние оценки показывают значительные успехи в оценке задач для начинающих аналитиков, где средние баллы возросли с 59.1% до 68.4% с GPT-5.2 Thinking и 71.7% с GPT-5.2 Pro.

В области программной инженерии GPT-5.2 Thinking достигает 55.6% на SWE-Bench Pro и 80.0% на SWE-Bench Verified, последнее сосредотачивается на генерации патчей на Python.

Долгосрочные контекстные возможности и агентские рабочие процессы

Управление долгосрочным контекстом является ключевым достижением в GPT-5.2. Вариант Thinking достигает передовых результатов на оценивании OpenAI MRCRv2, что оценивает способность модели воспроизводить правильные ответы в обширных контекстах, достигая почти 100% точности для запросов в пределах 256k токенов.

Для обширных рабочих нагрузок, превышающих этот предел, GPT-5.2 Thinking интегрирует конечную точку Responses /compact, предназначенную для компактного контекста, что особенно полезно в многоэтапных процессах.

На вспомогательных инструментах GPT-5.2 Thinking достигает 98.7% на Tau2-bench Telecom, оценивании, где анализируются реальные рабочие процессы, включая сценарии, такие как повторная броня билетов.

Улучшения в области визуализации, науки и математики

Способности визуализации GPT-5.2 улучшились, снизив количество ошибок в оценках анализа диаграмм. Ее пространственное восприятие позволяет лучше определять изображения, значительно увеличивая производительность по сравнению с GPT-5.1.

В научных оценках GPT-5.2 Pro достиг 93.2%, а GPT-5.2 Thinking 92.4% на GPQA Diamond, показывая компетентность в темах высшего уровня и сложных математических задачах.

Сравнение ключевых моделей

| Модель | Основное назначение | Контекстное окно | Дата ограничения знаний | Примечательные достижения | |--------------------|----------------------------------------------------------|------------------|-------------------------|---------------------------------------------------------------------| | GPT-5.1 | Флагман для программирования и агентов | 400,000 токенов | 2024-09-30 | SWE-Bench Pro 50.8%, SWE-bench Verified 76.3% | | GPT-5.2 (Thinking) | Основная модель для программирования и долгосрочных агентов | 400,000 токенов | 2025-08-31 | GDPval выигрывает 70.9%, SWE-Bench Pro 55.6%, SWE-bench Verified 80.0% | | GPT-5.2 Pro | Увеличивает вычислительные мощности для сложных задач | 400,000 токенов | 2025-08-31 | GPQA Diamond 93.2% против 92.4% для GPT-5.2 Thinking |

Ключевые выводы

GPT-5.2 Thinking — это обновленная рабочая модель: Она заменяет GPT-5.1 Thinking для программирования и знаний с значительно улучшенными результатами при сопоставимых лимитах контекста.
Значительное улучшение точности: С увеличением баллов на различных оценках GPT-5.2 Thinking демонстрирует заметное развитие, сохраняя аналогичные лимиты токенов.
GPT-5.2 Pro нацелен на продвинутые рассуждения: Направленный на высокоуровневые задачи рассуждения, он особенно хорошо справляется с научными оценками, достигая лучших результатов в сравнении с GPT-5.1 и Thinking вариантом.