Anthropic представила Claude Sonnet 4.5: новый стандарт для моделей кодирования и долгих агентских сессий
'Anthropic выпустила Claude Sonnet 4.5 с улучшениями для кодирования и долгих агентских сессий, новыми SDK и интеграциями для реальных рабочих нагрузок.'
Что нового в Sonnet 4.5
Anthropic выпустила Claude Sonnet 4.5 — обновление, ориентированное на реальные задачи разработки ПО, продолжительные агентские сценарии и надежную работу с компьютером. Релиз сопровождается практическими продуктовыми изменениями: чекпойнты в Claude Code, нативное расширение для VS Code, инструменты памяти/контекста в API и Agent SDK, который воспроизводит внутренние шаблоны Anthropic. Ценообразование осталось на уровне Sonnet 4: $3 за миллион входных токенов и $15 за миллион выходных.
Результаты на бенчмарках
Sonnet 4.5 показывает новые рекорды в прикладных оценках. На 500 задачах SWE-bench Verified Anthropic сообщает 77.2% точности при использовании простой двuinstrumentной схемы (bash + редактирование файлов), усреднено по 10 запускам без дополнительного вычисления во время теста и при бюджете 200K "thinking" токенов. В настройке с контекстом 1M токенов результат достигает 78.2%, а при повышенном вычислительном бюджете с параллельной выборкой и отбраковкой — 82.0%.
В задачах по использованию компьютера Sonnet 4.5 сделал существенный скачок на OSWorld-Verified: 61.4% по сравнению с 42.2% у Sonnet 4. Anthropic связывает это с улучшенным управлением инструментами и манипуляцией UI для браузерных и десктопных задач. Команда также отметила более 30 часов непрерывной работы над многошаговыми задачами кодирования, что демонстрирует практический прогресс в долгосрочной автономии.
В релиз-нотах указаны "существенные улучшения" по классическим задачам рассуждения и математики, а также усиленная безопасность (ASL-3) и защита от prompt-injection.
Обновления для агентов и SDK
Sonnet 4.5 направлен на хрупкие места реальных агентов: расширенное планирование, управление памятью и надежная оркестрация инструментов. Claude Agent SDK открывает производственные паттерны Anthropic, включая управление памятью для длительных сессий, разрешения и координацию субагентов. Это больше, чем просто LLM-эндпоинт: разработчики получают каркас, помогающий сохранять согласованность и возможность отката в многочасовых задачах.
Claude Code получил чекпойнты, обновлённый терминал и интеграцию с VS Code, что позволяет воспроизводить используемые Anthropic подходы для многошагового кодирования и RPA-подобных сценариев. Рост результатов на OSWorld-Verified отражает способность модели лучше ориентироваться, заполнять таблицы и завершать веб-потоки, что в корпоративных сценариях обычно означает меньше вмешательств человека во время выполнения.
Где доступен Sonnet 4.5
- Anthropic API и приложения: model ID claude-sonnet-4-5, паритет цен с Sonnet 4; создание файлов и выполнение кода доступны в платных тарифах Claude.
- AWS Bedrock: доступен через Bedrock с интеграцией AgentCore, акцентом на долгие сессии, память/контекст и операционные инструменты (наблюдаемость, изоляция сессий).
- Google Cloud Vertex AI: GA с поддержкой многагентной оркестрации через ADK/Agent Engine, выделенной пропускной способностью, 1M-токеновыми заданиями анализа и кэшированием промптов.
- GitHub Copilot: публичный превью в Copilot Chat (VS Code, веб, мобильные) и Copilot CLI; организации могут включать по политике и использовать собственные ключи в VS Code.
Значение для команд и бизнеса
Задокументированные успехи на SWE-bench Verified и OSWorld-Verified вместе с практическими продуктовыми улучшениями и SDK делают Sonnet 4.5 инструментом для долгих, насыщенных инструментами задач, а не только для коротких демонстрационных промптов. Независимая репликация поможет подтвердить заявления о лидерстве в кодировании, но архитектурные цели релиза — автономность, каркас и контроль компьютера — соответствуют реальным проблемам на производстве.
Switch Language
Read this article in English