Лаборатория Shanghai AI Предлагает Энтропийные Законы Масштабирования для Решения Проблемы Коллапса Исследования в RL для LLM

Расширение применения обучения с подкреплением в больших языковых моделях

Недавние достижения в области языковых моделей с акцентом на логическое мышление расширили применение обучения с подкреплением (RL) за рамки узкоспециализированных задач, увеличив возможности обобщения и рассуждения. Однако такой сдвиг сопровождается серьезными вызовами, в частности, масштабированием вычислительных ресурсов для обучения. В отличие от подражательного обучения через предварительное обучение и дообучение, RL требует более интенсивных вычислений из-за обучения на основе опыта.

Роль энтропии политики в балансе исследования и использования

Ключевая проблема в RL — снижение энтропии политики, что влияет на баланс между использованием известных стратегий и исследованием новых. Поддержание этого баланса критично для эффективного обучения, так как чрезмерное использование ограничивает поиск лучших политик. Методы максимальной энтропии RL вводят регуляризацию, стимулирующую неопределённость и расширяющую исследование, но их применение в LLM вызывает споры.

Введение зависимости между энтропией и производительностью

Исследователи из Shanghai AI Laboratory и партнерских вузов сформулировали эмпирическое уравнение, связывающее энтропию политики (H) и конечную производительность (R):

R = -a \exp{H} + b

где a и b — коэффициенты подгонки. Это показывает, что по мере снижения энтропии улучшение производительности ограничено, подчеркивая важность поддержания энтропии в процессе обучения.

Новые методы борьбы с коллапсом энтропии

Команда установила, что изменение энтропии политики обусловлено ковариацией между вероятностью действий и изменением логитов. Чтобы предотвратить коллапс энтропии, предложены два метода:

Clip-Cov: обрезает токены с высокой ковариацией.
KL-Cov: применяет штраф KL-дивергенции к токенам с высокой ковариацией.

Эти методы помогают сохранить исследование, управляя токенами, вызывающими снижение энтропии.

Экспериментальная проверка на разных моделях и бенчмарках

Исследование провели на 11 моделях из четырех семейств (Qwen2.5, Mistral, LLaMA, DeepSeek) с параметрами от 0.5B до 32B. Тестирование включало восемь бенчмарков, включая MATH500 и AIME 2024, с использованием авторегрессионной генерации и алгоритмов RL, таких как GRPO, REINFORCE++ и PRIME.

Существенные улучшения с Clip-Cov и KL-Cov

На моделях Qwen2.5 с датасетом DAPOMATH методы Clip-Cov и KL-Cov показали стабильный рост производительности по сравнению с базовым GRPO: в среднем +2.0% для модели 7B и +6.4% для 32B. Метод KL-Cov поддерживал уровень энтропии более чем в 10 раз выше при плато энтропии у базовой модели. Для самой большой модели (32B) улучшения достигли до 15.0% на сложных тестах.

Значение для масштабирования RL в LLM

Это исследование решает проблему коллапса энтропии политики, демонстрируя компромисс между улучшением производительности и исследованием. Предложенные стратегии регуляризации обеспечивают сохранение исследования во время обучения RL, что важно для масштабирования моделей с развитым рассуждением. Полученные результаты создают базу для дальнейшего развития более интеллектуальных и способных языковых моделей с помощью обучения с подкреплением.