Революция в рассуждениях LLM с офф-политик RL и регуляризацией KL-дивергенции

Улучшение рассуждений в больших языковых моделях с помощью методов градиента политики

Методы градиента политики значительно повысили способности к рассуждению у больших языковых моделей (LLM), особенно в сочетании с обучением с подкреплением (RL). Важным элементом стабилизации этих методов является регуляризация с помощью дивергенции Кульбака-Лейблера (KL), которая предотвращает резкие изменения между текущей политикой и эталонной.

Изучение вариантов KL-дивергенции в RL

Хотя регуляризация KL широко используется в алгоритмах, таких как Proximal Policy Optimization (PPO), существует множество вариантов KL — например, Forward KL, Reverse KL и их нормализованные и ненормализованные формы, которые можно оценивать и интегрировать в функции потерь. Выбор этих вариантов, а также разные градиентные оцениватели и различия между on-policy и off-policy настройками влияют на стабильность обучения и производительность по-разному и пока недостаточно исследованы.

Настройка LLM с помощью обратной связи от людей и RL

Тонкая настройка LLM с учетом человеческой обратной связи необходима для создания согласованных AI-систем. Существует две основные стратегии: оптимизация с использованием моделей вознаграждения через методы градиента политики, такие как PPO, и прямое обучение на предпочтениях людей с помощью методов, например Direct Preference Optimization (DPO). PPO стабилизирует обучение через модели вознаграждения, в то время как DPO упрощает и масштабирует обучение, используя парные сравнения предпочтений. RL все чаще применяется для улучшения рассуждений в сложных задачах, таких как математика и программирование, с новыми методами, направленными на снижение вычислительных затрат и повышение стабильности.

Введение Regularized Policy Gradient (RPG)

Исследователи из UCLA, Университета Цинхуа и Shanghai Qi Zhi представляют Regularized Policy Gradient (RPG) — унифицированную структуру для KL-регуляризованных градиентов политики в онлайн RL. RPG выводит градиенты политики и суррогатные функции потерь, используя как Forward, так и Reverse KL-дивергенции, учитывая нормализованные и ненормализованные политики. Он поддерживает как полностью дифференцируемые задачи, так и оцениватели в стиле REINFORCE, адаптированные для off-policy обучения с использованием важностного сэмплинга. Фреймворк решает теоретические проблемы существующих методов, таких как GRPO, и исследует KL-регуляризацию в REINFORCE++.

Методология RPG и структура градиентов

В работе представлены методы градиента политики с KL-регуляризацией в онлайн и off-policy режимах, используя важностный сэмплинг из старых политик. Для forward KL градиенты комбинируют важностно-взвешенные вознаграждения и регуляризационный член, а функция потерь напоминает максимум правдоподобия при нулевых вознаграждениях. Ненормализованный forward KL добавляет корректировки для несоответствия масс распределений. Аналогично, reverse KL и его ненормализованные версии штрафуют отклонения от эталонной политики, изменяя вознаграждение на основе логарифма отношения вероятностей. Все варианты имеют градиентную структуру, похожую на REINFORCE, что позволяет использовать оператор stop-gradient для стабильной и эффективной оптимизации.

Экспериментальная проверка на сложных задачах рассуждения

Исследователи оценили методы RPG — дифференцируемые и REINFORCE-стиля — в сравнении с ведущими базовыми методами на сложных математических задачах с использованием языковых моделей Qwen2.5. Обучение проводилось на наборе данных DAPO-Math-17k, а тестирование — на бенчмарках AMC23 и AIME. Варианты RPG последовательно показывали высокую точность, стабильность обучения и эффективность по памяти. Реализация использовала фреймворк Verl, методы регуляризации KL, PPO-подобное усечение и оптимизатор Schedule-Free AdamW для более плавного обучения. Модели RPG превосходили другие по формированию вознаграждения, контролю энтропии и длине ответа, что подчеркивает их надежность и пригодность для стабильного и эффективного обучения.

Продвижение методов градиента политики для LLM

RPG предлагает комплексную структуру для разработки и анализа методов градиента политики с KL-регуляризацией в онлайн и off-policy RL. Исследуя различные конфигурации — включая forward и reverse KL, нормализованные и ненормализованные политики, а также полностью дифференцируемые и REINFORCE-стиль оценивателей — RPG предоставляет структурированный подход к реализации и теоретическому пониманию. Применение к задачам рассуждения в LLM демонстрирует улучшенную стабильность обучения и производительность по сравнению с такими базовыми методами, как GRPO, REINFORCE++ и DAPO.

Подробнее читайте в статье и на GitHub. Все заслуги принадлежат исследователям проекта. Следите за нами в Twitter и присоединяйтесь к нашему SubReddit с 95k+ участниками и рассылке для обновлений.