Рубрики как Награды: Улучшение Обучения Языковых Моделей с Помощью Структурированной Многофакторной Оценки

Проблемы обучения языковых моделей с подкреплением

Методы обучения с подкреплением с проверяемыми наградами (RLVR) позволяют большим языковым моделям (LLM) успешно решать задачи с однозначными проверяемыми ответами, например в математике и программировании. Однако во многих реальных сценариях отсутствуют такие явные ответы, что затрудняет обучение моделей без прямых сигналов награды. Современные подходы, такие как обучение с подкреплением на основе человеческих предпочтений (RLHF), используют ранжирование предпочтений между ответами моделей, но требуют большого объема парных сравнений и часто переобучаются на поверхностные признаки, например длину ответа или предвзятость оценщиков.

Расширение RLVR на новые области

Недавние разработки расширяют RLVR за пределы математики и программирования на физику, финансы и политику. Например, GENERAL-REASONER показал значительный рост качества на сложных тестах благодаря дообучению. Оценка на основе рубрик, как в HEALTHBENCH, сочетает критерии, написанные клиницистами, с автоматическими судьями для проверки фактичности, безопасности и эмпатии. Несмотря на эффективность таких рубрик в оценке, они обычно не используются на этапе обучения.

Представление метода Рубрики как Награды (RaR)

Исследователи из Scale AI предложили Rubrics as Rewards (RaR) — метод обучения с подкреплением, использующий чеклистовые рубрики для управления многокритериальными задачами во время обучения. RaR создаёт рубрики, специфичные для каждого запроса, основанные на экспертных принципах, где каждый пункт чётко описывает стандарты качественного ответа и обеспечивает интерпретируемые человеком сигналы контроля. Метод применён в медицине и науке, создав два специализированных набора данных: RaR-Medicine-20k и RaR-Science-20k.

Как работает RaR

LLM используются в роли экспертных прокси для генерации рубрик, соответствующих таким требованиям, как экспертная основа, полнота охвата, семантическое взвешивание и автономность оценки. Для каждого домена LLM по специальным подсказкам создают от 7 до 20 пунктов рубрики, каждый из которых получает категориальный вес (например, важный или обязательный критерий), отражающий его значимость. Обучение проводится с использованием алгоритма GRPO и базовой модели Qwen2.5-7B. Тренировочный процесс состоит из трёх ключевых этапов: генерация ответов, вычисление награды и обновление политики.

Результаты и преимущества

Метод RaR-Implicit превосходит базовые подходы, включая Simple-Likert, достигая до 28% относительного улучшения на HealthBench-1k и 13% на GPQA. Он превосходит базовые и инструкционно-дообученные модели, подтверждая эффективность обучения с рубриками для тонкой оценки ответов. Рубрикаторные награды дают более ясные и точные сигналы, лучше соответствующие человеческим предпочтениям на разных масштабах моделей.

Ограничения и перспективы

Хотя RaR продвигает обучение языковых моделей с использованием структурированных чеклистовых рубрик как сигналов награды, его применение пока ограничено медициной и наукой. В будущем планируется проверить методы в более широких задачах, например открытых диалогах, исследовать альтернативные стратегии агрегирования наград, а также провести анализ рисков обхода наград. Зависимость от готовых LLM в роли судей указывает на потенциал создания специализированных оценщиков с улучшенными возможностями рассуждения.

Для более подробной информации рекомендуем ознакомиться с оригинальной статьёй исследователей.