SwiReasoning: переключение по энтропии между латентным мышлением и явной цепочкой рассуждений

Что делает SwiReasoning

SwiReasoning — это фреймворк на этапе декодирования, который позволяет LLM самостоятельно выбирать, когда размышлять «внутри» (в латентном пространстве), а когда выпускать явную цепочку рассуждений (CoT). Контроллер отслеживает блоковые тренды энтропии распределений следующего токена и формирует на их основе сигнал уверенности. При росте энтропии и снижении уверенности модель входит в латентный блок и продолжает вычисления без генерации токенов. Когда энтропия падает и уверенность восстанавливается, происходит переключение на явный CoT для закрепления выбранного пути.

Контроллер во время инференса и механизм переключений

Ключевой элемент — простая, не требующая обучения логика, которая формирует блоковый сигнал уверенности из трендов энтропии следующего токена. Переключения происходят на основе этих трендов: возрастание энтропии запускает латентную фазу для расширения поиска альтернатив, а снижение энтропии возвращает модель к явной генерации для фиксации решения. Параметр максимального числа переключений ограничивает количество переходов между латентными и явными блоками, предотвращая чрезмерные колебания и длительное «молчаливое» блуждание.

Результаты на бенчмарках по математике и STEM

SwiReasoning демонстрирует стабильные улучшения на задачах математики и STEM. При неограниченном бюджете (Pass@1) отмечаются приросты точности в среднем от +1.5% до +2.8%, в отдельных математических задачах до +2.8%. В условиях ограниченного числа токенов метод показывает существенные улучшения по эффективности использования токенов — в среднем от +56% до +79% и превосходит стандартные варианты CoT в 13 из 15 сценариев. На AIME 2024/2025 SwiReasoning достигает максимальной точности рассуждений значительно раньше CoT, что свидетельствует о более быстрой сходимости при меньшем числе сэмплов.

Почему чередование помогает

Явный CoT удобен для чтения и интерпретации, но он может преждевременно зафиксировать один путь рассуждений и отбросить полезные альтернативы. Полностью латентный подход позволяет глубже исследовать пространство, но может размывать вероятностную массу и замедлять сходимость. SwiReasoning сочетает сильные стороны обоих режимов: латентные фазы расширяют исследование при низкой уверенности, явные фазы закрепляют решение при росте уверенности. Ограничение числа переключений стабилизирует процесс, снижая потери точности из-за диффузии и расход токенов из-за чрезмерного обдумывания.

Сравнение с базовыми методами и практическая значимость

Сравнения с CoT с семплингом, жадным CoT и Soft Thinking показывают, что SwiReasoning сдвигает парето-границу: либо даёт большую точность при том же бюджете токенов, либо достигает сопоставимой точности с меньшим числом токенов. Метод ориентирован на метрику «точность на токен» и будет особенно полезен для сценариев бюджетного инференса и параллельной обработки. Открытая BSD-реализация с флагами вроде --max_switch_count и --alpha упрощает репликацию и интеграцию с дополнительными методами экономии (квантование, speculative decoding и т.д.).

Главные выводы

Тренинг-фри контроллер чередует латентное и явное рассуждение по блоковым трендам энтропии следующего токена.
Существенные выигрыши по эффективности токенов в условиях ограниченного бюджета: обычно +56%–79% по сравнению с CoT.
Небольшие, но стабильные приросты точности при неограниченном бюджете: примерно +1.5%–2.8% на математика/STEM.
Быстрая сходимость на задачах вроде AIME 2024/2025 — максимум точности достигается при меньшем числе выборок.

Подробности и реализация находятся в статье и на странице проекта, указанных в исходном релизе.