OpenAI запустила GPT-5.2: Продвинутый агент и модель программирования
Изучите возможности и результаты нового модели GPT-5.2 от OpenAI, ориентированной на агентов и программирование.
Обзор GPT-5.2
OpenAI только что представила GPT-5.2, свою самую продвинутую модель для профессиональной работы и долгосрочных агентов, которая внедряется в ChatGPT и API.
GPT-5.2 включает три варианта: в ChatGPT пользователи работают с ChatGPT-5.2 Instant, Thinking и Pro. В API предлагаются модели gpt-5.2-chat-latest, gpt-5.2 и gpt-5.2-pro. Вариант Instant ориентирован на повседневную помощь, Thinking предназначен для сложных многоэтапных задач и агентов, в то время как Pro выделяет большие вычислительные ресурсы для технических и аналитических задач.
Оценка по GDPval и SWE Bench
GPT-5.2 Thinking спроектирована как основной рабочий инструмент для реальных задач знаний. На GDPval, оценивании знаний в различных индустриях, она выигрывает или сравнивается с профессионалами в 70.9% кейсов. Более того, она работает с более чем 11-кратной скоростью по сравнению с экспертами, при этом затраты остаются ниже 1%. Это доверие дает возможность командам генерировать важные артефакты, такие как презентации, таблицы, графики и диаграммы на основе структурированных инструкций.
Внутренние оценки показывают значительные успехи в оценке задач для начинающих аналитиков, где средние баллы возросли с 59.1% до 68.4% с GPT-5.2 Thinking и 71.7% с GPT-5.2 Pro.
В области программной инженерии GPT-5.2 Thinking достигает 55.6% на SWE-Bench Pro и 80.0% на SWE-Bench Verified, последнее сосредотачивается на генерации патчей на Python.
Долгосрочные контекстные возможности и агентские рабочие процессы
Управление долгосрочным контекстом является ключевым достижением в GPT-5.2. Вариант Thinking достигает передовых результатов на оценивании OpenAI MRCRv2, что оценивает способность модели воспроизводить правильные ответы в обширных контекстах, достигая почти 100% точности для запросов в пределах 256k токенов.
Для обширных рабочих нагрузок, превышающих этот предел, GPT-5.2 Thinking интегрирует конечную точку Responses /compact, предназначенную для компактного контекста, что особенно полезно в многоэтапных процессах.
На вспомогательных инструментах GPT-5.2 Thinking достигает 98.7% на Tau2-bench Telecom, оценивании, где анализируются реальные рабочие процессы, включая сценарии, такие как повторная броня билетов.
Улучшения в области визуализации, науки и математики
Способности визуализации GPT-5.2 улучшились, снизив количество ошибок в оценках анализа диаграмм. Ее пространственное восприятие позволяет лучше определять изображения, значительно увеличивая производительность по сравнению с GPT-5.1.
В научных оценках GPT-5.2 Pro достиг 93.2%, а GPT-5.2 Thinking 92.4% на GPQA Diamond, показывая компетентность в темах высшего уровня и сложных математических задачах.
Сравнение ключевых моделей
| Модель | Основное назначение | Контекстное окно | Дата ограничения знаний | Примечательные достижения | |--------------------|----------------------------------------------------------|------------------|-------------------------|---------------------------------------------------------------------| | GPT-5.1 | Флагман для программирования и агентов | 400,000 токенов | 2024-09-30 | SWE-Bench Pro 50.8%, SWE-bench Verified 76.3% | | GPT-5.2 (Thinking) | Основная модель для программирования и долгосрочных агентов | 400,000 токенов | 2025-08-31 | GDPval выигрывает 70.9%, SWE-Bench Pro 55.6%, SWE-bench Verified 80.0% | | GPT-5.2 Pro | Увеличивает вычислительные мощности для сложных задач | 400,000 токенов | 2025-08-31 | GPQA Diamond 93.2% против 92.4% для GPT-5.2 Thinking |
Ключевые выводы
- GPT-5.2 Thinking — это обновленная рабочая модель: Она заменяет GPT-5.1 Thinking для программирования и знаний с значительно улучшенными результатами при сопоставимых лимитах контекста.
- Значительное улучшение точности: С увеличением баллов на различных оценках GPT-5.2 Thinking демонстрирует заметное развитие, сохраняя аналогичные лимиты токенов.
- GPT-5.2 Pro нацелен на продвинутые рассуждения: Направленный на высокоуровневые задачи рассуждения, он особенно хорошо справляется с научными оценками, достигая лучших результатов в сравнении с GPT-5.1 и Thinking вариантом.
Switch Language
Read this article in English