DeepConf: метод Meta AI, достигший 99.9% на AIME 2025 с GPT-OSS-120B благодаря оценке уверенности

августа 27, 2025 · 3 min

Почему DeepConf?

Традиционные подходы к рассуждению в больших языковых моделях, такие как параллельное мышление и self-consistency с голосованием большинства, повышают точность, но требуют генерации множества трасс рассуждений, что дорого по времени и вычислениям. Deep Think with Confidence (DeepConf), разработанный исследователями Meta AI и UCSD, использует внутренние сигналы уверенности модели, чтобы оставлять качественные трассы и отбрасывать слабые, тем самым добиваясь высокой точности при значительно меньших ресурсных затратах.

Как DeepConf измеряет и использует уверенность

DeepConf вводит несколько взаимодополняющих метрик уверенности на уровне токенов и сегментов:

Token Confidence: отрицательное среднее логарифма вероятности топ-k кандидатов для каждого токена, локальный показатель уверенности.
Group Confidence: усреднённая уверенность по скользящему окну (например, 2048 токенов) для сглаживания флуктуаций.
Tail Confidence: фокус на финальной части трассы, где чаще всего формируется ответ.
Lowest Group Confidence: поиск наименее уверенного сегмента, который сигнализирует о крахе рассуждения.
Bottom Percentile Confidence: акцент на худших сегментах, наиболее предиктивных для ошибок.

Эти метрики применяются для взвешенного голосования по уверенности, где трассы с более высокой уверенностью сильнее влияют на итог, или для фильтрации, когда сохраняются только верхние eta процентов трасс. В онлайн-режиме DeepConf может преждевременно остановить генерацию трассы, как только её уверенность опускается ниже динамически калиброванного порога, что значительно уменьшает ненужную генерацию токенов.

Ключевые результаты: точность и эффективность

DeepConf протестировали на задачах рассуждения AIME 2024/2025, HMMT 2025, BRUMO25 и GPQA-Diamond с моделями DeepSeek-8B, Qwen3-8B/32B и GPT-OSS-20B/120B. Основные итоги:

GPT-OSS-120B на AIME 2025: точность выросла до 99.9% при DeepConf@512 (с 91.8% pass@1 и 97.0% consensus@512), при этом сокращение сгенерированных токенов составило около 84.7%.
По всем наборам данных и моделям DeepConf повышает точность до ~10 процентных пунктов по сравнению с большинственным голосованием и часто достигает потолка задач.
Экономия токенов варьируется от примерно 43% до 85% благодаря ранней остановке низкоуверенных трасс без потери точности.

Развёртывание и интеграция

DeepConf работает на инференс-уровне и не требует дообучения моделей. Для работы нужен доступ к логвероятностям токенов и небольшая логика для подсчёта скользящих окон уверенности и проверки ранней остановки. Для vLLM интеграция минимальна: расширение процессора logprobs для отслеживания оконной уверенности, добавление проверки ранней остановки перед эмиссией вывода и передача порогов уверенности через API. По оценке авторов, метод можно встроить в стек обслуживания примерно за 50 строк кода.

Практическое значение

Plug-and-play: нет необходимости в дообучении или сложной настройке.
Снижение затрат: меньше сгенерированных токенов означает меньшую задержку и экономию вычислений.
Надёжность: отбрасывание плохо увереных трасс уменьшает влияние ошибочных цепочек рассуждений, которые искажают большинство голосов.

Где читать дальше

Полные технические детали и эксперименты доступны в статье: https://arxiv.org/pdf/2508.15260, а также на странице проекта и в репозиториях GitHub команды.

Часто задаваемые вопросы

В: Как DeepConf одновременно повышает точность и экономит ресурсы по сравнению с большинственным голосованием? О: DeepConf отдаёт приоритет более уверенным трассам и преждевременно завершает генерацию малоуверенных, что улучшает итоговую точность и сокращает ненужные вычисления.

В: Можно ли использовать DeepConf с любыми моделями и фреймворками? О: Да. Метод модель-агностичен и совместим с любым стеком обслуживания, который предоставляет логвероятности токенов.