Anthropic AI выпустил Bloom для оценки ИИ
Ознакомьтесь с Bloom — открытым фреймворком для автоматизации оценки поведения ИИ моделей.
Обзор
Anthropic выпустил Bloom — открытый агентный фреймворк, который автоматизирует оценку поведения для передовых моделей ИИ. Система принимает поведение, заданное исследователем, и создает целевые оценки, которые измеряют, как часто и насколько сильно это поведение появляется в реалистичных сценариях.
Зачем нужен Bloom?
Разработка и поддержание оценок поведения для безопасности и согласования являются дорогостоящими процессами. Команды должны вручную создавать сценарии, выполнять множество взаимодействий, анализировать длинные транскрипты и агрегировать результаты. По мере эволюции моделей старые ориентиры могут устаревать или утекать в обучающие данные. Исследовательская группа Anthropic рассматривает это как проблему масштабируемости; им нужен способ быстрее генерировать свежие оценки для несовпадающего поведения, сохраняя при этом значимость метрик.
Bloom решает эту пробелу. Вместо фиксированного уровня с маленьким набором подсказок, Bloom создает наборы оценок из конфигурации семени. Семя закрепляет, какое поведение изучать, сколько сценариев генерировать и какой стиль взаимодействия использовать. Фреймворк затем создает новые, но согласованные по поведению сценарии на каждом запуске, сохраняя воспроизводимость за счет зафиксированного семени.
Конфигурация семени и проектирование системы
Bloom реализован как конвейер Python и выпущен под лицензией MIT на GitHub. Основной ввод — это «семя» оценки, определенное в seed.yaml. Этот файл ссылается на ключ поведения в behaviors/behaviors.json, необязательные примеры транскриптов и глобальные параметры, определяющие весь процесс.
Ключевые элементы конфигурации включают:
behavior: Уникальный идентификатор, определенный вbehaviors.jsonдля целевого поведения, например, подхалимство или самосохранение.examples: Ноль или более примеров, хранящихся вbehaviors/examples/.total_evals: Количество подбросов для генерации в наборе.rollout.target: Модель для оценки, такая какclaude-sonnet-4.- Управляющие параметры, такие как
diversity,max_turns,modality, усилие рассуждения и другие качества оценки.
Bloom использует LiteLLM в качестве бэкенда для API-вызовов модели и может взаимодействовать как с моделями Anthropic, так и OpenAI через единый интерфейс. Он интегрируется с Weights and Biases для крупных экспериментов и экспортирует совместимые с Inspect транскрипты.
Четырехступенчатый агентный конвейер
Процесс оценки Bloom организован в четыре этапа, которые выполняются последовательно:
- Агент понимания: Читает описание поведения и примеры бесед, создавая структурированное резюме того, что считается положительным проявлением поведения и почему это важно.
- Агент идей: Генерирует кандидаты на оценочные сценарии, описывая ситуации, персоналии пользователей и инструменты, доступные целевой модели. Он группирует генерацию сценариев для эффективного использования токенов и использует параметр разнообразия.
- Агент развертывания: Инстанцирует сценарии с целевой моделью для многоходовых бесед, записывая все сообщения и вызовы инструментов. Параметры конфигурации контролируют автономность целевой модели.
- Агенты оценки и мета-оценки: Модель- судья оценивает каждый транскрипт по числовой шкале для наличия поведения и дополнительных качеств. Мета-судья затем обобщает все развертывания, создавая отчет, подчеркивающий важные случаи и паттерны.
Проверка на передовых моделях
Anthropic использовал Bloom для создания четырех наборов оценок, связанных с регулированием для патологического подхалимства, продленного саботажа, самосохранения и самопредпочтительное смещение. Каждый набор содержит 100 различных развертываний, повторенных трижды на 16 передовых моделях. Сообщенные графики показывают уровень извлечения с доверительными интервалами.
Bloom также тестируется на намеренно несовпадающих «моделях-организмах» из предыдущих работ по согласованию. Среди 10 странных поведений Bloom отделяет организмы от базовых производственных моделей в 9 случаях. В оставшемся случае базовая модель показывает аналогичную частоту поведения, что объясняет совпадение оценок. Отдельная проверка сравнила человеческие метки на транскриптах с кандидатами, достигнув коэффициента Спирмена 0.86 с человеческими оценками.
Связь с Petri и позиционирование
Anthropic представляет Bloom как дополнение к Petri, инструменту широкого охвата для аудита. Bloom начинается с одного определения поведения, автоматизируя инженерные решения, необходимые для создания большого, целенаправленного набора методов оценки с количественными метриками.
Ключевые достижения
- Bloom — это открытый агентный фреймворк, который преобразует одно определение поведения в полный набор оценки поведения для крупных моделей, используя четырехступенчатую цепочку: понимание, идейность, развертывание и оценка.
- Система управляется конфигурацией семени в
seed.yamlиbehaviors/behaviors.json, где исследователи указывают целевое поведение, примеры транскриптов, общее количество оценок и управляющие параметры. - Bloom использует LiteLLM для единого доступа к моделям Anthropic и OpenAI, отслеживает эксперименты с помощью Weights and Biases и экспортирует совместимые JSON форматы вместе с интерактивным просмотрщиком для анализа транскриптов и оценок.
- Anthropic валидирует Bloom по 4 поведениям на 16 моделях, отделяя несовпадающие организмы от базовых моделей в 9 случаях, а модели соответствуют человеческим меткам с высоким коэффициентом Спирмена.
Switch Language
Read this article in English