DeepConf: метод Meta AI, достигший 99.9% на AIME 2025 с GPT-OSS-120B благодаря оценке уверенности
Почему DeepConf?
Традиционные подходы к рассуждению в больших языковых моделях, такие как параллельное мышление и self-consistency с голосованием большинства, повышают точность, но требуют генерации множества трасс рассуждений, что дорого по времени и вычислениям. Deep Think with Confidence (DeepConf), разработанный исследователями Meta AI и UCSD, использует внутренние сигналы уверенности модели, чтобы оставлять качественные трассы и отбрасывать слабые, тем самым добиваясь высокой точности при значительно меньших ресурсных затратах.
Как DeepConf измеряет и использует уверенность
DeepConf вводит несколько взаимодополняющих метрик уверенности на уровне токенов и сегментов:
- Token Confidence: отрицательное среднее логарифма вероятности топ-k кандидатов для каждого токена, локальный показатель уверенности.
- Group Confidence: усреднённая уверенность по скользящему окну (например, 2048 токенов) для сглаживания флуктуаций.
- Tail Confidence: фокус на финальной части трассы, где чаще всего формируется ответ.
- Lowest Group Confidence: поиск наименее уверенного сегмента, который сигнализирует о крахе рассуждения.
- Bottom Percentile Confidence: акцент на худших сегментах, наиболее предиктивных для ошибок.
Эти метрики применяются для взвешенного голосования по уверенности, где трассы с более высокой уверенностью сильнее влияют на итог, или для фильтрации, когда сохраняются только верхние eta процентов трасс. В онлайн-режиме DeepConf может преждевременно остановить генерацию трассы, как только её уверенность опускается ниже динамически калиброванного порога, что значительно уменьшает ненужную генерацию токенов.
Ключевые результаты: точность и эффективность
DeepConf протестировали на задачах рассуждения AIME 2024/2025, HMMT 2025, BRUMO25 и GPQA-Diamond с моделями DeepSeek-8B, Qwen3-8B/32B и GPT-OSS-20B/120B. Основные итоги:
- GPT-OSS-120B на AIME 2025: точность выросла до 99.9% при DeepConf@512 (с 91.8% pass@1 и 97.0% consensus@512), при этом сокращение сгенерированных токенов составило около 84.7%.
- По всем наборам данных и моделям DeepConf повышает точность до ~10 процентных пунктов по сравнению с большинственным голосованием и часто достигает потолка задач.
- Экономия токенов варьируется от примерно 43% до 85% благодаря ранней остановке низкоуверенных трасс без потери точности.
Развёртывание и интеграция
DeepConf работает на инференс-уровне и не требует дообучения моделей. Для работы нужен доступ к логвероятностям токенов и небольшая логика для подсчёта скользящих окон уверенности и проверки ранней остановки. Для vLLM интеграция минимальна: расширение процессора logprobs для отслеживания оконной уверенности, добавление проверки ранней остановки перед эмиссией вывода и передача порогов уверенности через API. По оценке авторов, метод можно встроить в стек обслуживания примерно за 50 строк кода.
Практическое значение
- Plug-and-play: нет необходимости в дообучении или сложной настройке.
- Снижение затрат: меньше сгенерированных токенов означает меньшую задержку и экономию вычислений.
- Надёжность: отбрасывание плохо увереных трасс уменьшает влияние ошибочных цепочек рассуждений, которые искажают большинство голосов.
Где читать дальше
Полные технические детали и эксперименты доступны в статье: https://arxiv.org/pdf/2508.15260, а также на странице проекта и в репозиториях GitHub команды.
Часто задаваемые вопросы
В: Как DeepConf одновременно повышает точность и экономит ресурсы по сравнению с большинственным голосованием? О: DeepConf отдаёт приоритет более уверенным трассам и преждевременно завершает генерацию малоуверенных, что улучшает итоговую точность и сокращает ненужные вычисления.
В: Можно ли использовать DeepConf с любыми моделями и фреймворками? О: Да. Метод модель-агностичен и совместим с любым стеком обслуживания, который предоставляет логвероятности токенов.