Фракционное мышление: улучшение вывода LLM с адаптивным контролем глубины рассуждений

Ограничения современных стратегий вычислений во время тестирования

Модели больших языков (LLM) достигли значительных успехов, часто используя дополнительные вычислительные ресурсы во время вывода для улучшения рассуждений. Распространённые методы включают генерацию нескольких вариантов ответов или итеративное уточнение через саморефлексию. Однако эти методы применяют одинаковую глубину рассуждений ко всем запросам, не учитывая различия в сложности задач. Это может привести к недостаточному или избыточному анализу, ухудшая качество ответов и увеличивая затраты вычислений.

Введение фракционного мышления для динамического управления

Исследователи из Стэнфорда предложили фракционное мышление (FR) — новую, не требующую обучения и модельно-агностичную методику, позволяющую динамически регулировать глубину рассуждений во время вывода. FR работает через манипуляцию внутренними скрытыми состояниями модели. Он извлекает смещение латентного пространства, вызванное подсказками для рассуждений, такими как цепочки рассуждений (Chain-of-Thought) или рефлексивные подсказки, и повторно применяет это смещение с масштабируемым коэффициентом. Это позволяет модели гибко управлять глубиной анализа без изменения входного текста и дополнительного обучения.

Улучшение широты и глубины рассуждений

FR поддерживает и улучшает два основных типа масштабирования во время вывода: методы, основанные на расширении выбора (Best-of-N, Majority Vote), и методы, основанные на углублении рассуждений (саморефлексия). Настройка коэффициента масштабирования расширяет исследование пространства решений и улучшает качество рассуждений, делая вывод более точным и эффективным.

Результаты тестирования и универсальность моделей

Оценка на бенчмарках с многошаговыми задачами GSM8K, MATH500 и GPQA показывает, что FR стабильно превосходит стандартные методы вычислений во время вывода. Эксперименты с открытыми моделями Qwen2.5-7B-Instruct и LLaMA-3.1-8B-Instruct демонстрируют значительный прирост точности. FR также эффективен для специализированных моделей, таких как DeepSeek-R1-Distill-Qwen-7B, что подтверждает его универсальность.

Анализ поведения и эффект масштабирования

Исследования показывают, что увеличение коэффициента масштабирования приводит к более длинным и детализированным выводам с многошаговыми рассуждениями. FR управляет поведением модели предсказуемо и непрерывно. Улучшение производительности растёт с увеличением числа генераций и стабильно превосходит базовые методы голосования большинства.

Перспективы развития

Несмотря на значительный прогресс, FR зависит от заранее определённых направлений рассуждений и ручной настройки коэффициентов масштабирования. В будущем планируется разработка автоматических политик для динамического выбора глубины рассуждений, что позволит добиться полностью автономного адаптивного вывода в LLM.