<НА ГЛАВНУЮ

Microsoft и Тинхуа представляют модели вознаграждения с рассуждениями для динамического масштабирования вычислений и улучшения оценки LLM

Исследователи Microsoft и Тинхуа предложили модели вознаграждения с рассуждениями, которые адаптивно распределяют вычислительные ресурсы во время оценки, значительно улучшая качество суждений и выравнивания больших языковых моделей.

Проблемы моделирования вознаграждений для больших языковых моделей

Обучение с подкреплением (RL) является ключевым методом дообучения больших языковых моделей (LLM), используя сигналы от человеческой обратной связи (RLHF) или проверяемые вознаграждения (RLVR). Несмотря на потенциал RLVR в задачах математического рассуждения, его применение ограничено необходимостью иметь запросы с проверяемыми ответами, что затрудняет масштабирование на общие доменные задачи. Существующие модели вознаграждения — скалярные или генеративные — не могут динамически распределять вычислительные ресурсы при оценке, применяя одинаковую вычислительную мощность ко всем запросам.

Модели вознаграждения с рассуждениями (RRM): новый подход

Исследователи из Microsoft Research, Университета Тинхуа и Пекинского университета разработали модели вознаграждения с рассуждениями (RRMs), которые включают явную фазу рассуждения перед вынесением окончательного решения о вознаграждении. Такой подход позволяет RRMs динамически масштабировать вычисления во время тестирования, выделяя больше ресурсов для сложных запросов, требующих глубокого анализа.

RRMs используют цепочку рассуждений (chain-of-thought), чтобы самостоятельно развивать способности к оценке вознаграждения без необходимости в явных следах рассуждений в обучающих данных. Они базируются на модели Qwen2 с архитектурой Transformer-декодера, формулируя задачу оценки в виде дополнения текста. RRMs автогенерируют шаги рассуждения, а затем делают выбор предпочтительного ответа из двух, без возможности ничьей.

Оценка и результаты

Исследователи использовали репозиторий RewardBench для системного анализа RRMs по различным критериям: соответствие инструкциям, полезность, точность, безопасность и уровень детализации. Поддерживается многоответная оценка с помощью рейтинговой системы ELO и турниров с выбыванием, комбинируемых с большинством голосов для повышения надежности.

Результаты показывают, что RRMs достигают конкурентоспособных или лучших результатов по сравнению с сильными базовыми моделями на бенчмарках RewardBench и PandaLM Test. Особенно модель RRM-32B достигла 98.6% точности в категориях рассуждений. RRMs превосходят модели DirectJudge, обученные на тех же данных, что подтверждает их способность эффективно использовать вычисления во время тестирования для сложных запросов.

Кроме того, RRMs демонстрируют превосходство в reward-guided best-of-N inference без дополнительного тестового вычисления и показывают стабильный рост производительности на downstream задачах, таких как MMLU-Pro и GPQA, после дообучения. Эксперименты масштабирования подтверждают, что увеличение длины рассуждений последовательно улучшает точность для моделей с 7B, 14B и 32B параметрами.

Значение для выравнивания и перспективы

Введение явного процесса рассуждения перед присвоением вознаграждения позволяет RRMs преодолеть ограниченную гибкость вычислений в традиционных моделях вознаграждения. Их способность эффективно использовать тестовые вычисления как параллельными, так и последовательными методами делает их сильной альтернативой скалярным моделям в техниках выравнивания.

Исследовательская команда предоставила статью и модели на Hugging Face, приглашая сообщество к изучению и развитию данной работы.

🇬🇧

Switch Language

Read this article in English

Switch to English