Лаборатория Shanghai AI Предлагает Энтропийные Законы Масштабирования для Решения Проблемы Коллапса Исследования в RL для LLM
Исследователи из Shanghai AI Laboratory предложили энтропийные законы масштабирования и новые методы для преодоления коллапса исследования в обучении с подкреплением больших языковых моделей, достигнув заметного улучшения результатов.
Расширение применения обучения с подкреплением в больших языковых моделях
Недавние достижения в области языковых моделей с акцентом на логическое мышление расширили применение обучения с подкреплением (RL) за рамки узкоспециализированных задач, увеличив возможности обобщения и рассуждения. Однако такой сдвиг сопровождается серьезными вызовами, в частности, масштабированием вычислительных ресурсов для обучения. В отличие от подражательного обучения через предварительное обучение и дообучение, RL требует более интенсивных вычислений из-за обучения на основе опыта.
Роль энтропии политики в балансе исследования и использования
Ключевая проблема в RL — снижение энтропии политики, что влияет на баланс между использованием известных стратегий и исследованием новых. Поддержание этого баланса критично для эффективного обучения, так как чрезмерное использование ограничивает поиск лучших политик. Методы максимальной энтропии RL вводят регуляризацию, стимулирующую неопределённость и расширяющую исследование, но их применение в LLM вызывает споры.
Введение зависимости между энтропией и производительностью
Исследователи из Shanghai AI Laboratory и партнерских вузов сформулировали эмпирическое уравнение, связывающее энтропию политики (H) и конечную производительность (R):
R = -a \exp{H} + b
где a и b — коэффициенты подгонки. Это показывает, что по мере снижения энтропии улучшение производительности ограничено, подчеркивая важность поддержания энтропии в процессе обучения.
Новые методы борьбы с коллапсом энтропии
Команда установила, что изменение энтропии политики обусловлено ковариацией между вероятностью действий и изменением логитов. Чтобы предотвратить коллапс энтропии, предложены два метода:
- Clip-Cov: обрезает токены с высокой ковариацией.
- KL-Cov: применяет штраф KL-дивергенции к токенам с высокой ковариацией.
Эти методы помогают сохранить исследование, управляя токенами, вызывающими снижение энтропии.
Экспериментальная проверка на разных моделях и бенчмарках
Исследование провели на 11 моделях из четырех семейств (Qwen2.5, Mistral, LLaMA, DeepSeek) с параметрами от 0.5B до 32B. Тестирование включало восемь бенчмарков, включая MATH500 и AIME 2024, с использованием авторегрессионной генерации и алгоритмов RL, таких как GRPO, REINFORCE++ и PRIME.
Существенные улучшения с Clip-Cov и KL-Cov
На моделях Qwen2.5 с датасетом DAPOMATH методы Clip-Cov и KL-Cov показали стабильный рост производительности по сравнению с базовым GRPO: в среднем +2.0% для модели 7B и +6.4% для 32B. Метод KL-Cov поддерживал уровень энтропии более чем в 10 раз выше при плато энтропии у базовой модели. Для самой большой модели (32B) улучшения достигли до 15.0% на сложных тестах.
Значение для масштабирования RL в LLM
Это исследование решает проблему коллапса энтропии политики, демонстрируя компромисс между улучшением производительности и исследованием. Предложенные стратегии регуляризации обеспечивают сохранение исследования во время обучения RL, что важно для масштабирования моделей с развитым рассуждением. Полученные результаты создают базу для дальнейшего развития более интеллектуальных и способных языковых моделей с помощью обучения с подкреплением.
Switch Language
Read this article in English