Master-RM: укрепление доверия к LLM-моделям награды против поверхностных уязвимостей

Рост популярности генеративных моделей награды в RLVR

Генеративные модели награды, где большие языковые модели (LLM) выступают в роли оценщиков, всё чаще применяются в обучении с подкреплением с проверяемыми наградами (RLVR). Такие модели предпочтительнее традиционных систем на основе правил, особенно для задач с открытыми или сложными ответами. Вместо строгих правил они сравнивают кандидатный ответ с эталонным и выдают бинарную оценку.

Уязвимости к поверхностным подсказкам

Несмотря на хорошее соответствие человеческим оценкам, эти модели уязвимы к поверхностным признакам, таким как пунктуация или шаблонные фразы вроде «Давайте решим шаг за шагом». Исследователи из Tencent AI Lab, Принстонского университета и Университета Вирджинии обнаружили, что даже тривиальные и неинформативные сигналы — например, слово «Solution» или знаки препинания — могут вызывать ложноположительные оценки. Эта проблема угрожает надежности алгоритмов, таких как оптимизация предпочтений и отсев, которые сильно зависят от точных сигналов награды. Уязвимость носит системный характер и затрагивает как проприетарные модели (GPT-4o, Claude-4), так и открытые (LLaMA3, Qwen2.5).

Представляем Master-RM: надёжное решение

Для борьбы с этими проблемами была создана модель Master-RM, дообученная на расширенном наборе данных с 20 000 адверсариальных ответов. В этот набор включены общие вводные для рассуждений и бессмысленные фразы, помеченные как недействительные. Такая аугментация данных значительно снизила количество ложноположительных срабатываний на тестах GSM8K, MATH и NaturalReasoning. Master-RM стабильно превзошла другие модели награды, достигая почти нулевого уровня ошибок даже при враждебном тестировании.

Основные наблюдения

Системная уязвимость: Все проверенные модели, включая GPT-4o и LLaMA3, показывали повышенное количество ложноположительных оценок при воздействии «мастер-ключевых» хаков.
Влияние масштабирования модели: Малые модели буквально совпадают с токенами; средние делают семантические ошибки; крупные склонны к чрезмерным обобщениям.
Эффективность аугментации данных: Добавление адверсариальных примеров в обучение значительно повышает устойчивость, не снижая точности.

Результаты тестирования

Master-RM протестирована на пяти различных бенчмарках рассуждений. В сравнении с Omni-Judge и Multi-sub RM она демонстрирует лучшее соответствие эталонам, таким как GPT-4o, и минимальный уровень ложноположительных оценок. Надежность сохраняется даже при тестировании с адверсариальными вариантами на разных языках и в различных задачах.

Доступность и дополнительная информация

Модель Master-RM и её обучающий набор доступны на Hugging Face, что позволяет сообществу ИИ использовать более надёжные LLM-оценки в обучении с подкреплением. Подробности методологии и результатов можно найти в исходной работе.

Часто задаваемые вопросы

В1: Что такое «мастер-ключевые» хаки? Это поверхностные текстовые подсказки, такие как пунктуация или стандартные фразы рассуждений, вызывающие ложноположительные оценки у LLM-оценщиков.

В2: Как Master-RM повышает устойчивость? Модель обучена на тщательно подобранном наборе адверсариальных примеров с меткой "недействительный", что снижает уязвимость к поверхностным манипуляциям и сохраняет высокую точность.

В3: Где можно найти Master-RM? Модель и датасет доступны на Hugging Face под названиями Master-RM Model и Master-RM Dataset.