DEER: Обучение не требуется — динамический ранний выход для крупных языковых моделей рассуждений

Прогресс в крупных языковых моделях рассуждений

Недавние достижения в крупных языковых моделях рассуждений (LRLM), таких как DeepSeek-R1 и GPT-O1, повысили способность решать сложные задачи за счет расширения Chain-of-Thought (CoT) во время вывода. Эти модели используют законы масштабирования в тестовом режиме для создания более богатых и разнообразных путей рассуждений. Однако генерация слишком длинных последовательностей CoT приводит к неэффективности вычислений и увеличению задержек, что усложняет их применение в реальных системах. Кроме того, избыточные рассуждения могут добавлять ненужные или неактуальные шаги, что снижает точность.

Проблема переосмысления

Традиционные методы обучения с учителем и подкреплением не обеспечивают динамический контроль длины рассуждений, из-за чего модели склонны к переосмыслению. Исследования показывают, что рассуждения часто можно остановить раньше, на так называемых «жемчужных» точках, не потеряв при этом правильность ответа. Обнаружение таких критических точек остановки значительно повышает эффективность при сохранении или улучшении качества модели.

Существующие подходы и их ограничения

Методы повышения эффективности вывода делятся на три категории: постобучение, основанные на подсказках и на выходных данных. Постобучение требует дополнительного обучения с переменной длиной CoT или использованием наград за длину, что требует больших ресурсов и может привести к переобучению. Методы с подсказками корректируют ввод для регулировки длины CoT, стараясь сохранить точность. Методы на основе выходных данных применяют техники выборки, например, раннюю остановку при сходимости нескольких ответов, но современные модели уменьшают зависимость от best-of-N выборки. Некоторые стратегии раннего выхода требуют отдельные проверочные модели или работают только в ограниченных условиях.

Представляем DEER: Динамический ранний выход в рассуждениях

Группа исследователей из Института информационной инженерии, Университета Китайской академии наук и Huawei Technologies предложила DEER — простой метод, не требующий дополнительного обучения, который позволяет LRLM динамически завершать рассуждения раньше. DEER отслеживает ключевые точки перехода, например генерацию токенов «Wait», и предлагает модели сгенерировать пробный ответ. Если модель уверена в ответе, рассуждения прекращаются, иначе продолжаются.

Этот подход легко интегрируется с существующими моделями, такими как DeepSeek, сокращая длину CoT на 31–43% и повышая точность на 1.7–5.7% в бенчмарках MATH-500, AIME 2024 и GPQA Diamond.

Принцип работы DEER

Архитектура DEER состоит из трёх модулей:

Монитор переходов в рассуждениях: выявляет сигналы переключения мысли.
Индуктор ответов: инициирует генерацию пробного заключения.
Оценщик уверенности: проверяет, превышает ли уверенность в ответе заданный порог.

Если уверенность достаточна, рассуждения завершаются; если нет — продолжаются.

Для снижения задержек при генерации пробных ответов DEER применяет параллельное ветвление декодирования с динамическим управлением кэшем, что повышает эффективность без потерь точности, особенно в задачах генерации кода.

Результаты экспериментов

Метод протестирован на четырёх основных бенчмарках рассуждений — MATH-500, AMC 2023, AIME 2024, GPQA Diamond — а также на программных бенчмарках HumanEval и BigCodeBench. Использовались модели DeepSeek-R1-Distill-Qwen с размером от 1.5B до 32B параметров в zero-shot Chain-of-Thought режиме.

DEER сократил длину рассуждений на 31–43% и повысил точность на 1.7–5.7% по сравнению со стандартным CoT. Особенно эффективно метод работал на простых задачах и с малыми моделями, корректируя больше ответов через ранние выходы. На программных бенчмарках DEER уменьшил длину рассуждений более чем на 60% при минимальных или отсутствующих потерях точности.

Баланс эффективности и точности

Исследование подтверждает, что ранний выход во время генерации CoT возможен и полезен. DEER предлагает обучение не требующую динамическую стратегию раннего выхода, позволяющую модели останавливать рассуждения при сборе достаточной информации, что лучше балансирует эффективность и производительность, чем традиционные длинные CoT. Мониторинг уверенности модели позволяет избежать лишних шагов, ускоряя и улучшая качество ответов на разных задачах.