Отбор токенов с высокой энтропией в RLVR повышает точность и снижает затраты на обучение LLM
‘Селективное обучение на токенах с высокой энтропией улучшает результаты рассуждений LLM и снижает вычислительные затраты, устанавливая новые рекорды на тестах AIME.’
Понимание энтропии токенов в рассуждениях LLM
Большие языковые модели (LLM) создают сложные пошаговые ответы, известные как цепочки рассуждений (Chain-of-Thought, CoT). Каждый токен вносит вклад в логический рассказ, но не все токены одинаково важны для процесса рассуждения. Энтропия токена измеряет неопределенность при предсказании каждого токена, выявляя ключевые моменты принятия решений.
Ограничения равного обучения всех токенов в усиленном обучении
Традиционные методы усиленного обучения с проверяемыми наградами (RLVR) обучают модели, одинаково учитывая все токены при обновлении политики. Такие методы, как Proximal Policy Optimization (PPO), Group Relative Policy Optimization (GRPO) и Dynamic sAmpling Policy Optimization (DAPO), оценивают целые последовательности токенов без учета важности отдельных токенов. Это часто приводит к трате ресурсов на токены, которые лишь продолжают существующую мысль, а не меняют ход рассуждений.
Токены с высокой энтропией как точки развилки
Исследователи из Alibaba и Университета Цинхуа проанализировали модели Qwen3 и обнаружили, что около 20% токенов имеют высокую энтропию, называемых «токенами развилки». Эти токены соответствуют моментам, когда модель должна выбрать между несколькими путями рассуждения. Остальные 80% токенов имеют низкую энтропию и служат расширением предыдущей логики.
Селективное обучение на токенах с высокой энтропией
Ограничив обновления градиента политики только токенами с высокой энтропией, исследователи смогли сохранить и даже улучшить показатели на сложных тестах по рассуждениям. Энтропия токенов вычислялась на основе распределения вероятностей выбора токена, и было обнаружено, что более половины токенов имеют энтропию ниже 0.01, что указывает на почти детерминированное поведение, тогда как 20% имеют энтропию выше 0.672 — ключевые точки принятия решений.
Результаты экспериментов
Эксперименты с моделями Qwen3-8B, Qwen3-14B и Qwen3-32B показали, что обучение только на 20% токенов с высокой энтропией дает значительный прирост эффективности. Модель Qwen3-32B достигла 63.5 баллов на AIME’24 и 56.7 на AIME’25, превзойдя более крупные модели с традиционным обучением. Увеличение максимальной длины ответа с 20k до 29k токенов дополнительно улучшило результаты. Обучение же на 80% токенов с низкой энтропией привело к существенному падению производительности.
Оптимальный порог и масштабируемость
Исследование показало, что порог в 20% оптимально балансирует исследование и производительность. Уменьшение до 10% исключало важные точки решений, а увеличение до 50% или 100% снижало эффект из-за включения большого числа низкоэнтропийных токенов. Более крупные модели получили большую выгоду от такой селективной тренировки благодаря лучшим возможностям исследования. Эта стратегия легко масштабируется и представляет практичный подход к улучшению рассуждений LLM при снижении затрат на обучение.
Основные выводы
- Около 20% токенов — ключевые точки решения с высокой энтропией.
- Обучение на этих токенах дает результаты, не уступающие полной тренировке.
- Qwen3-32B установила новые рекорды на AIME’24 и AIME’25.
- Увеличение длины ответа улучшает результаты.
- Обучение на низкоэнтропийных токенах ухудшает производительность.
- Селективный подход снижает вычислительные затраты и повышает качество рассуждений.
Данное исследование предлагает новый взгляд на применение усиленного обучения к языковым моделям, сосредотачиваясь на тех токенах, которые действительно влияют на ход рассуждений, что повышает точность и эффективность.
Switch Language
Read this article in English