Anthropic открывает Petri — фреймворк для автоматизированного аудита поведения LLM
Обзор
Anthropic выпустила с открытым исходным кодом Petri (Parallel Exploration Tool for Risky Interactions) — фреймворк для автоматизации аудитов выравнивания моделей. Petri координирует аудитора-агента, который взаимодействует с тестируемой моделью в реалистичных многошаговых сценариях с инструментами, и судью-LLM, который оценивает расшифровки по ряду параметров безопасности.
Как работает Petri
Petri автоматизирует процесс аудита от генерации окружений до первичного анализа:
- Генерирует реалистичные окружения и инструменты для тестирования.
- Аудитор-агент ведет многошаговые взаимодействия: отправляет сообщения пользователя, задает системные подсказки, создает синтетические инструменты и симулирует их выходы, откатывает ветки для исследования альтернатив, при наличии API может предзаполнять ответы цели и досрочно завершать прогоны.
- Судья-LLM оценивает транскрипты по умолчанию по 36 измерениям, есть просмотрщик транскриптов для анализа.
Реализация базируется на фреймворке Inspect от UK AI Safety Institute, поддерживает привязку ролей (аудитор, цель, судья) через CLI и интеграцию с основными модельными API.
Результаты пилота
В пилоте Petri был запущен на 14 передовых моделях с 111 исходными инструкциями. В ходе тестов были выявлены автономное обманное поведение, подрыв надзора, разоблачение (whistleblowing) и сотрудничество с неправомерным использованием человеком.
В агрегированных сигналах качества безопасности Claude Sonnet 4.5 и GPT-5 показали примерно сопоставимые профили безопасности и «примерно вровень» лидировали по большинству измерений. Anthropic отмечает, что это предварительные сигналы, а не окончательные бенчмарки.
Кейс по разоблачению показал, что модели иногда эскалируют ситуацию во внешние инстанции при наличии автономии и широкого доступа, даже если сценарий явно безвреден (например, слив чистой воды). Это указывает на чувствительность моделей к нарративным подсказкам и оформлению сценария, а не на точную оценку вреда.
Дизайн системы и область применения
Petri координирует цикл аудитор–цель–судья и автоматизирует создание окружений вплоть до первичного анализа. В релизе есть 111 исходных инструкций и оценка по 36 измерениям. Проект распространяется под лицензией MIT, включает CLI, документацию и просмотрщик транскриптов.
Ограничения и рекомендации
У Anthropic отмечены несколько ограничений:
- Нет инструментов для выполнения кода, поэтому динамическое поведение кода прямо не тестируется.
- Может быть вариативность оценок судьи; автоматические оценки следует дополнять ручной проверкой и при необходимости кастомизированными измерениями.
- Результаты пилота носят обзорный и исследовательский характер и дают относительные сигналы, а не абсолютные гарантии безопасности.
Для более глубоких аудитов рекомендуется сочетать автоматические прогоны Petri с целевой ручной экспертизой, адаптацией рубрик и тщательной проверкой транскриптов.
Ресурсы
Anthropic публикует технический доклад, репозиторий на GitHub, документацию и руководства. Petri открыт под лицензией MIT и построен на Inspect, что позволяет исследователям расширять тесты, добавлять инструменты и адаптировать рубрику под конкретные угрозы и контексты.