DeepConf: метод Meta AI, достигший 99.9% на AIME 2025 с GPT-OSS-120B благодаря оценке уверенности

Почему DeepConf?

Традиционные подходы к рассуждению в больших языковых моделях, такие как параллельное мышление и self-consistency с голосованием большинства, повышают точность, но требуют генерации множества трасс рассуждений, что дорого по времени и вычислениям. Deep Think with Confidence (DeepConf), разработанный исследователями Meta AI и UCSD, использует внутренние сигналы уверенности модели, чтобы оставлять качественные трассы и отбрасывать слабые, тем самым добиваясь высокой точности при значительно меньших ресурсных затратах.

Как DeepConf измеряет и использует уверенность

DeepConf вводит несколько взаимодополняющих метрик уверенности на уровне токенов и сегментов:

Эти метрики применяются для взвешенного голосования по уверенности, где трассы с более высокой уверенностью сильнее влияют на итог, или для фильтрации, когда сохраняются только верхние eta процентов трасс. В онлайн-режиме DeepConf может преждевременно остановить генерацию трассы, как только её уверенность опускается ниже динамически калиброванного порога, что значительно уменьшает ненужную генерацию токенов.

Ключевые результаты: точность и эффективность

DeepConf протестировали на задачах рассуждения AIME 2024/2025, HMMT 2025, BRUMO25 и GPQA-Diamond с моделями DeepSeek-8B, Qwen3-8B/32B и GPT-OSS-20B/120B. Основные итоги:

Развёртывание и интеграция

DeepConf работает на инференс-уровне и не требует дообучения моделей. Для работы нужен доступ к логвероятностям токенов и небольшая логика для подсчёта скользящих окон уверенности и проверки ранней остановки. Для vLLM интеграция минимальна: расширение процессора logprobs для отслеживания оконной уверенности, добавление проверки ранней остановки перед эмиссией вывода и передача порогов уверенности через API. По оценке авторов, метод можно встроить в стек обслуживания примерно за 50 строк кода.

Практическое значение

Где читать дальше

Полные технические детали и эксперименты доступны в статье: https://arxiv.org/pdf/2508.15260, а также на странице проекта и в репозиториях GitHub команды.

Часто задаваемые вопросы

В: Как DeepConf одновременно повышает точность и экономит ресурсы по сравнению с большинственным голосованием? О: DeepConf отдаёт приоритет более уверенным трассам и преждевременно завершает генерацию малоуверенных, что улучшает итоговую точность и сокращает ненужные вычисления.

В: Можно ли использовать DeepConf с любыми моделями и фреймворками? О: Да. Метод модель-агностичен и совместим с любым стеком обслуживания, который предоставляет логвероятности токенов.