Как заставить языковые модели обсуждать «рискованные» темы: набор данных FalseReject

Проблема избыточных отказов в языковых моделях

Современные языковые модели часто проявляют излишнюю осторожность, отказываясь отвечать на запросы, которые кажутся рискованными, но на самом деле безвредны. Такое поведение снижает их практическую полезность, особенно когда требуется тонкое понимание контекста.

Представляем FalseReject: специализированный набор данных

Исследователи из Дармутского колледжа и Amazon разработали набор данных FalseReject — большую коллекцию запросов, призванных выявить и снизить избыточные отказы. Запросы выглядят чувствительными на первый взгляд, но в контексте безопасны. Набор охватывает 44 категории, связанных с безопасностью, и содержит 16 000 запросов, а также размеченный вручную тестовый набор для оценки моделей.

Как создавался FalseReject

Команда выявила языковые паттерны, вызывающие отказы, и построила графы сущностей на основе существующих датасетов безопасности с использованием модели Llama-3.1-405B. Применялся многоагентный подход: Генератор создает запросы, Дискриминатор оценивает их риск, а Оркестратор проверяет безопасность и полезность. Этот итеративный процесс позволил отобрать запросы, которые проверяют модели, не поощряя вредоносный контент.

Тестирование языковых моделей

FalseReject-Test протестировал 29 моделей, включая GPT, Claude, Gemini, Llama, Mistral, Cohere, Qwen, Phi и DeepSeek. Результаты показали, что проблема избыточных отказов сохраняется даже у топовых моделей, таких как GPT-4.5 и Claude-3.5. Интересно, что некоторые открытые модели, например Mistral-7B и DeepSeek-R1, показали лучшие результаты, что свидетельствует о потенциале открытых сообществ в обеспечении безопасности ИИ.

Дообучение с FalseReject

Объединив FalseReject с общими данными для обучения по инструкциям, исследователи дообучили несколько базовых моделей. Модели без цепочек рассуждений стали отвечать более конструктивно, а модели с рассуждениями повысили осторожность и релевантность без потерь в общей производительности. Это доказывает эффективность FalseReject для снижения избыточных отказов.

Баланс между безопасностью и полезностью

Несмотря на успехи, основная задача — создавать фильтры, которые учитывают моральные, юридические и практические аспекты в постоянно меняющейся среде. FalseReject предоставляет ценные ресурсы и методологию для повышения контекстной безопасности и уменьшения ненужных отказов в ИИ.

Дополнительная информация

Набор данных FalseReject и сопутствующие материалы доступны онлайн, включая страницу проекта на Hugging Face и исследовательскую статью «FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning».