Microsoft и Тинхуа представляют модели вознаграждения с рассуждениями для динамического масштабирования вычислений и улучшения оценки LLM
Исследователи Microsoft и Тинхуа предложили модели вознаграждения с рассуждениями, которые адаптивно распределяют вычислительные ресурсы во время оценки, значительно улучшая качество суждений и выравнивания больших языковых моделей.
Проблемы моделирования вознаграждений для больших языковых моделей
Обучение с подкреплением (RL) является ключевым методом дообучения больших языковых моделей (LLM), используя сигналы от человеческой обратной связи (RLHF) или проверяемые вознаграждения (RLVR). Несмотря на потенциал RLVR в задачах математического рассуждения, его применение ограничено необходимостью иметь запросы с проверяемыми ответами, что затрудняет масштабирование на общие доменные задачи. Существующие модели вознаграждения — скалярные или генеративные — не могут динамически распределять вычислительные ресурсы при оценке, применяя одинаковую вычислительную мощность ко всем запросам.
Модели вознаграждения с рассуждениями (RRM): новый подход
Исследователи из Microsoft Research, Университета Тинхуа и Пекинского университета разработали модели вознаграждения с рассуждениями (RRMs), которые включают явную фазу рассуждения перед вынесением окончательного решения о вознаграждении. Такой подход позволяет RRMs динамически масштабировать вычисления во время тестирования, выделяя больше ресурсов для сложных запросов, требующих глубокого анализа.
RRMs используют цепочку рассуждений (chain-of-thought), чтобы самостоятельно развивать способности к оценке вознаграждения без необходимости в явных следах рассуждений в обучающих данных. Они базируются на модели Qwen2 с архитектурой Transformer-декодера, формулируя задачу оценки в виде дополнения текста. RRMs автогенерируют шаги рассуждения, а затем делают выбор предпочтительного ответа из двух, без возможности ничьей.
Оценка и результаты
Исследователи использовали репозиторий RewardBench для системного анализа RRMs по различным критериям: соответствие инструкциям, полезность, точность, безопасность и уровень детализации. Поддерживается многоответная оценка с помощью рейтинговой системы ELO и турниров с выбыванием, комбинируемых с большинством голосов для повышения надежности.
Результаты показывают, что RRMs достигают конкурентоспособных или лучших результатов по сравнению с сильными базовыми моделями на бенчмарках RewardBench и PandaLM Test. Особенно модель RRM-32B достигла 98.6% точности в категориях рассуждений. RRMs превосходят модели DirectJudge, обученные на тех же данных, что подтверждает их способность эффективно использовать вычисления во время тестирования для сложных запросов.
Кроме того, RRMs демонстрируют превосходство в reward-guided best-of-N inference без дополнительного тестового вычисления и показывают стабильный рост производительности на downstream задачах, таких как MMLU-Pro и GPQA, после дообучения. Эксперименты масштабирования подтверждают, что увеличение длины рассуждений последовательно улучшает точность для моделей с 7B, 14B и 32B параметрами.
Значение для выравнивания и перспективы
Введение явного процесса рассуждения перед присвоением вознаграждения позволяет RRMs преодолеть ограниченную гибкость вычислений в традиционных моделях вознаграждения. Их способность эффективно использовать тестовые вычисления как параллельными, так и последовательными методами делает их сильной альтернативой скалярным моделям в техниках выравнивания.
Исследовательская команда предоставила статью и модели на Hugging Face, приглашая сообщество к изучению и развитию данной работы.
Switch Language
Read this article in English