Crome: Каузальная система Google DeepMind для надёжного обучения моделей вознаграждения в выравнивании LLM

Проблемы обучения моделей вознаграждения для выравнивания LLM

Модели вознаграждения важны для выравнивания больших языковых моделей (LLM) с человеческими предпочтениями, но часто страдают от проблем «взлома вознаграждения». Они ошибочно ориентируются на поверхностные признаки, такие как длина ответа или форматирование, вместо истинных качественных характеристик, например, фактической точности и релевантности. Это происходит из-за того, что стандартные цели обучения не различают случайные корреляции в данных и реальные причинные факторы, влияющие на качество ответа. В результате модели вознаграждения становятся хрупкими и создают несогласованные политики.

Ограничения существующих методов

Существующие решения проблемы взлома вознаграждения в системах RLHF включают архитектурные изменения, такие как Odin, настройки на уровне политики и методы, ориентированные на данные — ансамбли и проверки согласованности. Некоторые современные каузальные методы пытаются регуляризовать или корректировать известные ложные факторы, но часто упускают неизвестные. Стратегии аугментации и оценки пока не обеспечивают надёжную тренировку моделей вознаграждения против разнообразных ложных сигналов.

Представляем Crome: Каузальная система для устойчивого обучения моделей вознаграждения

Исследователи из Google DeepMind, Университета Макгилла и MILA представили Crome (Causally Robust Reward Modeling) — систему, основанную на явной каузальной модели генерации ответов. Crome обучает модели вознаграждения отличать истинные факторы качества от поверхностных признаков, используя датасеты предпочтений с контрфактическими примерами, сгенерированными LLM.

Создаются два типа синтетических пар для обучения:

Каузальные аугментации: изменения по конкретным причинным атрибутам, например, по фактической точности, чтобы повысить чувствительность к реальным изменениям качества.
Нейтральные аугментации: обеспечивают инвариантность по отношению к ложным атрибутам, таким как стиль, с помощью меток равенства.

Этот подход значительно повышает устойчивость, увеличивая точность RewardBench до 4.5%, а также улучшая безопасность и способность к рассуждению.

Технический подход: Контрфактические данные и составная функция потерь

Метод Crome включает два этапа: генерацию атрибутно-зависимых контрфактических данных на основе каузальной модели и обучение модели вознаграждения с использованием специализированной функции потерь на комбинированных данных. Теоретический анализ показывает, как каузальная аугментация позволяет выделить истинные драйверы вознаграждения от ложных корреляций.

В экспериментах используется датасет UltraFeedback с контрфактическими примерами, сгенерированными Gemini 2.0 Flash. Оценка проводится на бенчмарках RewardBench и reWordBench с использованием различных базовых LLM, таких как Gemma-2-9B-IT, Qwen2.5-7B и Gemma-2-2B, для моделей вознаграждения парных предпочтений и по модели Брэдли-Терри. Влияние на выравнивание оценивается через Best-of-N выбор на нескольких задачах.

Улучшение производительности на бенчмарках

На RewardBench Crome превосходит предыдущие методы (например, RRM), достигая до 13.18% улучшения в категории безопасности и до 7.19% в категории рассуждений. На reWordBench достигается до 9.1% общего прироста точности, а также превосходство в 21 из 23 тестируемых трансформаций. Кроме того, Crome демонстрирует меньшее снижение точности ранжирования между RewardBench и reWordBench по сравнению с базовыми методами.

На WildGuardTest Crome повышает безопасность, снижая успешность атак на вредоносные запросы без увеличения отказов при безобидных.

Перспективы каузальной аугментации данных

Crome показывает, что целенаправленные синтетические данные, основанные на каузальных моделях, эффективно решают проблему взлома вознаграждения при обучении LLM. Этот подход, ориентированный на подготовку данных, открывает новые перспективы для генерации синтетических данных и проверки каузальных атрибутов, что обещает развитие в области устойчивого выравнивания языковых моделей.

Больше информации в оригинальной статье и на страницах проекта в Twitter и сообществах по машинному обучению.