RLV: Улучшение рассуждений языковых моделей с помощью интегрированной проверки без использования value-функции

Развитие методов обучения с подкреплением для языковых моделей

Большие языковые модели (LLM) продемонстрировали выдающиеся способности к рассуждению, используя обучение с подкреплением (RL) на основе наград за корректность. Современные алгоритмы RL, такие как GRPO, VinePPO и Leave-one-out PPO, повысили эффективность, отказавшись от обучаемой value-функции и полагаясь на эмпирическую оценку вознаграждений. Это существенно снижает вычислительные затраты и потребление видеопамяти, что позволяет масштабировать обучение для более крупных моделей.

Потери от удаления value-функции

Отказ от value-функции улучшает эффективность, но убирает важный механизм верификации. Ранее value-функция служила проверяющим элементом для оценки корректности цепочек рассуждений, что улучшало выводы с помощью параллельных стратегий поиска, таких как Best-of-N или взвешенное голосование. Без этого компонента LLM теряют инструмент для проверки своих ответов.

Существующие подходы к верификации и их ограничения

Другие методы верификации используют классификаторы, обучаемые бинарной классификацией, обучением предпочтений или предсказанием следующего токена. Они требуют больших объемов данных для обучения, дополнительных вычислительных ресурсов и значительной видеопамяти во время вывода, что добавляет сложности и нагрузку.

Представление RLV: объединение рассуждений и верификации

Исследователи из Университета Макгилла, Университета Монреаля, Microsoft Research и Google DeepMind предложили RLV – новый подход, который интегрирует генеративного проверяющего в value-free методы RL без ущерба для масштабируемости обучения. RLV использует обильные данные, генерируемые во время RL-обучения, чтобы одновременно оптимизировать LLM как рассуждающую и проверяющую модель.

Верификация представлена как задача предсказания следующего токена, что позволяет одной модели генерировать решения и выдавать внутренний оценочный балл. Первичные эксперименты показали, что RLV повышает точность на датасете MATH более чем на 20% по сравнению с базовыми методами RL при использовании параллельной выборки, достигая при этом в 8–32 раза более эффективного масштабирования вычислений во время тестирования.

Технические детали и оценка

Фреймворк RLV оценивался на датасете Hendycks’ MATH, с использованием 4×A100 80G Nvidia GPU в течение 3 часов. Тестирование проводилось на наборах MATH500, MATH2, GPQA и AIME’24. Модель Qwen2.5 Math 1.5B была дообучена с алгоритмами GRPO, Leave-One-Out PPO и VinePPO с и без объединенной верификации.

Обучение проходило с контекстным окном в 1024 токена, при этом генерация во время вывода достигала 1024 токенов для MATH500 и 2048 токенов для других наборов.

Основные результаты и производительность

RLV продемонстрировал выдающееся масштабирование вычислений во время тестирования, достигая до 32-кратного увеличения эффективности и повышения точности на 4% на MATH500 при 512 выборках. Среди стратегий верификации лучшим оказалось взвешенное голосование, превосходящее большинство и Best-of-N при выборке от 8 решений на задачу для коротких и длинных моделей цепочек рассуждений (CoT).

RLV дополняет последовательное масштабирование вычислений при выводе, а вариант GRPOV достиг наивысших показателей на AIME’24 при более длинных генерациях. Обучение объединенного проверяющего требует точной настройки коэффициента верификации λ, который существенно влияет на точность проверяющего, увеличивая её с примерно 50% до 80% при росте λ.

Перспективы развития

Фреймворк RLV предлагает единый подход к рассуждениям и верификации в LLM без значительных вычислительных затрат. В дальнейшем возможно улучшение генеративного проверяющего для вывода явных объяснений цепочек рассуждений, что потребует специализированных данных CoT для верификации или отдельного RL-обучения.

Данное исследование заложило прочную основу для повышения надежности и эффективности рассуждений языковых моделей за счет интеграции верификации непосредственно в value-free обучение с подкреплением.

Для подробностей рекомендуем ознакомиться с оригинальной статьей и следить за обновлениями в сообществах ML и соответствующих рассылках.