Отбор токенов с высокой энтропией в RLVR повышает точность и снижает затраты на обучение LLM

Понимание энтропии токенов в рассуждениях LLM

Большие языковые модели (LLM) создают сложные пошаговые ответы, известные как цепочки рассуждений (Chain-of-Thought, CoT). Каждый токен вносит вклад в логический рассказ, но не все токены одинаково важны для процесса рассуждения. Энтропия токена измеряет неопределенность при предсказании каждого токена, выявляя ключевые моменты принятия решений.

Ограничения равного обучения всех токенов в усиленном обучении

Традиционные методы усиленного обучения с проверяемыми наградами (RLVR) обучают модели, одинаково учитывая все токены при обновлении политики. Такие методы, как Proximal Policy Optimization (PPO), Group Relative Policy Optimization (GRPO) и Dynamic sAmpling Policy Optimization (DAPO), оценивают целые последовательности токенов без учета важности отдельных токенов. Это часто приводит к трате ресурсов на токены, которые лишь продолжают существующую мысль, а не меняют ход рассуждений.

Токены с высокой энтропией как точки развилки

Исследователи из Alibaba и Университета Цинхуа проанализировали модели Qwen3 и обнаружили, что около 20% токенов имеют высокую энтропию, называемых «токенами развилки». Эти токены соответствуют моментам, когда модель должна выбрать между несколькими путями рассуждения. Остальные 80% токенов имеют низкую энтропию и служат расширением предыдущей логики.

Селективное обучение на токенах с высокой энтропией

Ограничив обновления градиента политики только токенами с высокой энтропией, исследователи смогли сохранить и даже улучшить показатели на сложных тестах по рассуждениям. Энтропия токенов вычислялась на основе распределения вероятностей выбора токена, и было обнаружено, что более половины токенов имеют энтропию ниже 0.01, что указывает на почти детерминированное поведение, тогда как 20% имеют энтропию выше 0.672 — ключевые точки принятия решений.

Результаты экспериментов

Эксперименты с моделями Qwen3-8B, Qwen3-14B и Qwen3-32B показали, что обучение только на 20% токенов с высокой энтропией дает значительный прирост эффективности. Модель Qwen3-32B достигла 63.5 баллов на AIME’24 и 56.7 на AIME’25, превзойдя более крупные модели с традиционным обучением. Увеличение максимальной длины ответа с 20k до 29k токенов дополнительно улучшило результаты. Обучение же на 80% токенов с низкой энтропией привело к существенному падению производительности.

Оптимальный порог и масштабируемость

Исследование показало, что порог в 20% оптимально балансирует исследование и производительность. Уменьшение до 10% исключало важные точки решений, а увеличение до 50% или 100% снижало эффект из-за включения большого числа низкоэнтропийных токенов. Более крупные модели получили большую выгоду от такой селективной тренировки благодаря лучшим возможностям исследования. Эта стратегия легко масштабируется и представляет практичный подход к улучшению рассуждений LLM при снижении затрат на обучение.

Основные выводы

Около 20% токенов — ключевые точки решения с высокой энтропией.
Обучение на этих токенах дает результаты, не уступающие полной тренировке.
Qwen3-32B установила новые рекорды на AIME’24 и AIME’25.
Увеличение длины ответа улучшает результаты.
Обучение на низкоэнтропийных токенах ухудшает производительность.
Селективный подход снижает вычислительные затраты и повышает качество рассуждений.

Данное исследование предлагает новый взгляд на применение усиленного обучения к языковым моделям, сосредотачиваясь на тех токенах, которые действительно влияют на ход рассуждений, что повышает точность и эффективность.