Anthropic AI выпустил Bloom для оценки ИИ

Обзор

Anthropic выпустил Bloom — открытый агентный фреймворк, который автоматизирует оценку поведения для передовых моделей ИИ. Система принимает поведение, заданное исследователем, и создает целевые оценки, которые измеряют, как часто и насколько сильно это поведение появляется в реалистичных сценариях.

Зачем нужен Bloom?

Разработка и поддержание оценок поведения для безопасности и согласования являются дорогостоящими процессами. Команды должны вручную создавать сценарии, выполнять множество взаимодействий, анализировать длинные транскрипты и агрегировать результаты. По мере эволюции моделей старые ориентиры могут устаревать или утекать в обучающие данные. Исследовательская группа Anthropic рассматривает это как проблему масштабируемости; им нужен способ быстрее генерировать свежие оценки для несовпадающего поведения, сохраняя при этом значимость метрик.

Bloom решает эту пробелу. Вместо фиксированного уровня с маленьким набором подсказок, Bloom создает наборы оценок из конфигурации семени. Семя закрепляет, какое поведение изучать, сколько сценариев генерировать и какой стиль взаимодействия использовать. Фреймворк затем создает новые, но согласованные по поведению сценарии на каждом запуске, сохраняя воспроизводимость за счет зафиксированного семени.

Конфигурация семени и проектирование системы

Bloom реализован как конвейер Python и выпущен под лицензией MIT на GitHub. Основной ввод — это «семя» оценки, определенное в seed.yaml. Этот файл ссылается на ключ поведения в behaviors/behaviors.json, необязательные примеры транскриптов и глобальные параметры, определяющие весь процесс.

Ключевые элементы конфигурации включают:

behavior: Уникальный идентификатор, определенный в behaviors.json для целевого поведения, например, подхалимство или самосохранение.
examples: Ноль или более примеров, хранящихся в behaviors/examples/.
total_evals: Количество подбросов для генерации в наборе.
rollout.target: Модель для оценки, такая как claude-sonnet-4.
Управляющие параметры, такие как diversity, max_turns, modality, усилие рассуждения и другие качества оценки.

Bloom использует LiteLLM в качестве бэкенда для API-вызовов модели и может взаимодействовать как с моделями Anthropic, так и OpenAI через единый интерфейс. Он интегрируется с Weights and Biases для крупных экспериментов и экспортирует совместимые с Inspect транскрипты.

Четырехступенчатый агентный конвейер

Процесс оценки Bloom организован в четыре этапа, которые выполняются последовательно:

Агент понимания: Читает описание поведения и примеры бесед, создавая структурированное резюме того, что считается положительным проявлением поведения и почему это важно.
Агент идей: Генерирует кандидаты на оценочные сценарии, описывая ситуации, персоналии пользователей и инструменты, доступные целевой модели. Он группирует генерацию сценариев для эффективного использования токенов и использует параметр разнообразия.
Агент развертывания: Инстанцирует сценарии с целевой моделью для многоходовых бесед, записывая все сообщения и вызовы инструментов. Параметры конфигурации контролируют автономность целевой модели.
Агенты оценки и мета-оценки: Модель- судья оценивает каждый транскрипт по числовой шкале для наличия поведения и дополнительных качеств. Мета-судья затем обобщает все развертывания, создавая отчет, подчеркивающий важные случаи и паттерны.

Проверка на передовых моделях

Anthropic использовал Bloom для создания четырех наборов оценок, связанных с регулированием для патологического подхалимства, продленного саботажа, самосохранения и самопредпочтительное смещение. Каждый набор содержит 100 различных развертываний, повторенных трижды на 16 передовых моделях. Сообщенные графики показывают уровень извлечения с доверительными интервалами.

Bloom также тестируется на намеренно несовпадающих «моделях-организмах» из предыдущих работ по согласованию. Среди 10 странных поведений Bloom отделяет организмы от базовых производственных моделей в 9 случаях. В оставшемся случае базовая модель показывает аналогичную частоту поведения, что объясняет совпадение оценок. Отдельная проверка сравнила человеческие метки на транскриптах с кандидатами, достигнув коэффициента Спирмена 0.86 с человеческими оценками.

Связь с Petri и позиционирование

Anthropic представляет Bloom как дополнение к Petri, инструменту широкого охвата для аудита. Bloom начинается с одного определения поведения, автоматизируя инженерные решения, необходимые для создания большого, целенаправленного набора методов оценки с количественными метриками.

Ключевые достижения

Bloom — это открытый агентный фреймворк, который преобразует одно определение поведения в полный набор оценки поведения для крупных моделей, используя четырехступенчатую цепочку: понимание, идейность, развертывание и оценка.
Система управляется конфигурацией семени в seed.yaml и behaviors/behaviors.json, где исследователи указывают целевое поведение, примеры транскриптов, общее количество оценок и управляющие параметры.
Bloom использует LiteLLM для единого доступа к моделям Anthropic и OpenAI, отслеживает эксперименты с помощью Weights and Biases и экспортирует совместимые JSON форматы вместе с интерактивным просмотрщиком для анализа транскриптов и оценок.
Anthropic валидирует Bloom по 4 поведениям на 16 моделях, отделяя несовпадающие организмы от базовых моделей в 9 случаях, а модели соответствуют человеческим меткам с высоким коэффициентом Спирмена.