Стресс-тест спецификаций моделей: исследование Anthropic и Thinking Machines выявляет, где модели расходятся

Стресс-тестирование спецификаций моделей

Команда исследователей из Anthropic, Thinking Machines Lab и Constellation разработала методику для проверки спецификаций моделей, создавая сценарии ценностных компромиссов и измеряя межмодельные расхождения. Вопрос в том, достаточно ли точно текущие спецификации задают ожидаемое поведение и проявляют ли передовые модели разные профили при одной и той же спецификации.

Методика

Исследователи начали с таксономии из 3 307 тонких значений, извлеченных из реального трафика Claude, что гораздо детализированнее типичных спецификаций. Для каждой пары значений они генерируют нейтральный запрос и две смещенные версии, склоняющие ответ в сторону одного из значений. Ответы оцениваются по шкале от 0 до 6 по рубрике ценностного спектра: 0 означает сильное противодействие значению, 6 означает сильную поддержку.

Расхождение определяется как максимальное стандартное отклонение по двум шкалам значений для данного сценария. Чтобы удалить почти дубликаты, сохранив сложные случаи, авторы применяют выборку k-center с весами по расхождению, используя эмбеддинги Gemini и жадный алгоритм с 2-аппроксимацией.

Масштаб и релизы

Исследователи сгенерировали более 300 000 сценариев и протестировали 12 передовых LLM от Anthropic, OpenAI, Google и xAI. Датасет опубликован на Hugging Face в трех разрезах: дефолтный около 132 000 строк, полный около 411 000 строк и разрез с оценками судей около 24 600 строк. В карточке указаны модальность, формат parquet и лицензия Apache 2.0.

Читать статью: https://arxiv.org/pdf/2510.07686

Основные выводы

Как расхождение помогает улучшать спецификации

Главный вклад работы в том, что межмодельные расхождения превращаются в измеримый диагностический сигнал качества спецификации. Высокое расхождение показывает блоки спецификации, требующие ясности, дополнительных примеров или явных указаний по качеству ответов. Связав расхождение с увеличением частых несоответствий в реальной спецификации, исследование дает практический сигнал для авторов спецификаций, чтобы править правила до разворачивания моделей.

Практическое значение

Практики по выравниванию и аудитам могут использовать этот подход для масштабного стресс-тестирования спецификаций, выявления неоднозначных или противоречивых формулировок и приоритизации правок. Публичный датасет делает возможной независимую верификацию и воспроизводимость результатов между провайдерами и семействами моделей.