Anthropic представила Claude Sonnet 4.5: новый стандарт для моделей кодирования и долгих агентских сессий

Что нового в Sonnet 4.5

Anthropic выпустила Claude Sonnet 4.5 — обновление, ориентированное на реальные задачи разработки ПО, продолжительные агентские сценарии и надежную работу с компьютером. Релиз сопровождается практическими продуктовыми изменениями: чекпойнты в Claude Code, нативное расширение для VS Code, инструменты памяти/контекста в API и Agent SDK, который воспроизводит внутренние шаблоны Anthropic. Ценообразование осталось на уровне Sonnet 4: $3 за миллион входных токенов и $15 за миллион выходных.

Результаты на бенчмарках

Sonnet 4.5 показывает новые рекорды в прикладных оценках. На 500 задачах SWE-bench Verified Anthropic сообщает 77.2% точности при использовании простой двuinstrumentной схемы (bash + редактирование файлов), усреднено по 10 запускам без дополнительного вычисления во время теста и при бюджете 200K "thinking" токенов. В настройке с контекстом 1M токенов результат достигает 78.2%, а при повышенном вычислительном бюджете с параллельной выборкой и отбраковкой — 82.0%.

В задачах по использованию компьютера Sonnet 4.5 сделал существенный скачок на OSWorld-Verified: 61.4% по сравнению с 42.2% у Sonnet 4. Anthropic связывает это с улучшенным управлением инструментами и манипуляцией UI для браузерных и десктопных задач. Команда также отметила более 30 часов непрерывной работы над многошаговыми задачами кодирования, что демонстрирует практический прогресс в долгосрочной автономии.

В релиз-нотах указаны "существенные улучшения" по классическим задачам рассуждения и математики, а также усиленная безопасность (ASL-3) и защита от prompt-injection.

Обновления для агентов и SDK

Sonnet 4.5 направлен на хрупкие места реальных агентов: расширенное планирование, управление памятью и надежная оркестрация инструментов. Claude Agent SDK открывает производственные паттерны Anthropic, включая управление памятью для длительных сессий, разрешения и координацию субагентов. Это больше, чем просто LLM-эндпоинт: разработчики получают каркас, помогающий сохранять согласованность и возможность отката в многочасовых задачах.

Claude Code получил чекпойнты, обновлённый терминал и интеграцию с VS Code, что позволяет воспроизводить используемые Anthropic подходы для многошагового кодирования и RPA-подобных сценариев. Рост результатов на OSWorld-Verified отражает способность модели лучше ориентироваться, заполнять таблицы и завершать веб-потоки, что в корпоративных сценариях обычно означает меньше вмешательств человека во время выполнения.

Где доступен Sonnet 4.5

Anthropic API и приложения: model ID claude-sonnet-4-5, паритет цен с Sonnet 4; создание файлов и выполнение кода доступны в платных тарифах Claude.
AWS Bedrock: доступен через Bedrock с интеграцией AgentCore, акцентом на долгие сессии, память/контекст и операционные инструменты (наблюдаемость, изоляция сессий).
Google Cloud Vertex AI: GA с поддержкой многагентной оркестрации через ADK/Agent Engine, выделенной пропускной способностью, 1M-токеновыми заданиями анализа и кэшированием промптов.
GitHub Copilot: публичный превью в Copilot Chat (VS Code, веб, мобильные) и Copilot CLI; организации могут включать по политике и использовать собственные ключи в VS Code.

Значение для команд и бизнеса