Стресс-тест спецификаций моделей: исследование Anthropic и Thinking Machines выявляет, где модели расходятся

Стресс-тестирование спецификаций моделей

Команда исследователей из Anthropic, Thinking Machines Lab и Constellation разработала методику для проверки спецификаций моделей, создавая сценарии ценностных компромиссов и измеряя межмодельные расхождения. Вопрос в том, достаточно ли точно текущие спецификации задают ожидаемое поведение и проявляют ли передовые модели разные профили при одной и той же спецификации.

Методика

Исследователи начали с таксономии из 3 307 тонких значений, извлеченных из реального трафика Claude, что гораздо детализированнее типичных спецификаций. Для каждой пары значений они генерируют нейтральный запрос и две смещенные версии, склоняющие ответ в сторону одного из значений. Ответы оцениваются по шкале от 0 до 6 по рубрике ценностного спектра: 0 означает сильное противодействие значению, 6 означает сильную поддержку.

Расхождение определяется как максимальное стандартное отклонение по двум шкалам значений для данного сценария. Чтобы удалить почти дубликаты, сохранив сложные случаи, авторы применяют выборку k-center с весами по расхождению, используя эмбеддинги Gemini и жадный алгоритм с 2-аппроксимацией.

Масштаб и релизы

Исследователи сгенерировали более 300 000 сценариев и протестировали 12 передовых LLM от Anthropic, OpenAI, Google и xAI. Датасет опубликован на Hugging Face в трех разрезах: дефолтный около 132 000 строк, полный около 411 000 строк и разрез с оценками судей около 24 600 строк. В карточке указаны модальность, формат parquet и лицензия Apache 2.0.

Читать статью: https://arxiv.org/pdf/2510.07686

Основные выводы

Расхождение предсказывает нарушения спецификации. При тестировании пяти моделей OpenAI на публичной спецификации OpenAI сценарии с высоким расхождением показывают в 5–13 раз больше частых несоответствий. Авторы интерпретируют это как свидетельство противоречий и неоднозначностей в тексте спецификации.
В спецификациях не хватает градации качества внутри безопасной области. Некоторые ответы проходят проверку на соответствие, но отличаются по полезности. Например, одна модель отказывается и предлагает безопасные альтернативы, другая просто отказывает. Спецификация принимает оба варианта, что указывает на отсутствие рекомендаций по стандартам качества.
Судейские модели расходятся во мнении. Три LLM-судьи, Claude 4 Sonnet, o3 и Gemini 2.5 Pro, показывают лишь умеренное согласие с Fleiss Kappa около 0.42. Конфликты возникают из-за интерпретаций, например добросовестного сопротивления против исключений при преобразовании.
Паттерны поведения провайдеров. Агрегация сценариев с высоким расхождением выявляет стабильные ценностные предпочтения. Модели Claude склонны отдавать приоритет этической ответственности, интеллектуальной честности и объективности. Модели OpenAI чаще ориентированы на эффективность и оптимизацию ресурсов. Gemini 2.5 Pro и Grok чаще выделяют эмоциональную глубину и аутентичную связь. Другие ценности, такие как деловая эффективность, личностный рост и социальная справедливость, показывают смешанные паттерны.
Отказы и ложные срабатывания. Анализ фиксирует всплески отказов по темам и ложные положительные отказы в безопасных контекстах, например легитимные планы изучения синтетической биологии или стандартные типы unsafe в Rust. Модели Claude наиболее осторожны по частоте отказов и часто предлагают альтернативы, o3 чаще дает прямые отказы. Все модели демонстрируют высокий уровень отказов по рискам, связанным с детской эксплуатацией.
Выбросы показывают несоответствия и излишнюю консервативность. Grok 4 и Claude 3.5 Sonnet дают наибольшее число аутлайеров по разным причинам: Grok более снисходителен к запросам, которые другие считают рискованными, а Claude 3.5 иногда чрезмерно отвергает безвредный контент. Анализ выбросов полезен для локализации как пробелов в безопасности, так и чрезмерной фильтрации.

Как расхождение помогает улучшать спецификации

Главный вклад работы в том, что межмодельные расхождения превращаются в измеримый диагностический сигнал качества спецификации. Высокое расхождение показывает блоки спецификации, требующие ясности, дополнительных примеров или явных указаний по качеству ответов. Связав расхождение с увеличением частых несоответствий в реальной спецификации, исследование дает практический сигнал для авторов спецификаций, чтобы править правила до разворачивания моделей.

Практическое значение

Практики по выравниванию и аудитам могут использовать этот подход для масштабного стресс-тестирования спецификаций, выявления неоднозначных или противоречивых формулировок и приоритизации правок. Публичный датасет делает возможной независимую верификацию и воспроизводимость результатов между провайдерами и семействами моделей.