DeepSeek V3.2-Exp снижает расходы на длинный контекст с помощью обучаемого разреженного внимания
DeepSeek выпустил V3.2-Exp — промежуточное обновление, направленное на экономию вычислений при длинных контекстах. Обновление сохраняет стек V3/V3.1 (MoE + MLA) и добавляет двустадийный обучаемый путь разреживания — DeepSeek Sparse Attention (DSA). Компания также заявляет о снижении цен API более чем на 50%.
Как работает DSA
DSA разделяет путь внимания на два слоя вычислений. Сначала лёгкий индексатор, работающий в FP8 с небольшим числом голов, вычисляет скоринг предыдущих токенов с ReLU-активацией. Поскольку этот этап запускается в FP8 и использует мало голов, его время выполнения и FLOP-накладные расходы малы по сравнению с плотным вниманием.
Далее выполняется выборка top-k ключ-значений (в релизе используется k = 2048). Стандартное внимание затем вычисляется только по отобранному подмножеству. Это меняет доминирующую сложность с O(L^2) на O(L·k) при k « L, при этом запросы всё ещё могут учитывать удалённые токены при необходимости.
Обучение и реализация
Индексатор обучается подражать суммарному распределению вниманий плотной модели с помощью KL-дивергенции. Обучение проходит в два этапа: короткий плотный warm-up, когда индексатор учится на целевых распределениях при замороженной основной модели, и этап разреженного обучения, где градиенты индексатора отделены от языковой потери основной модели. Warm-up использовал около 2.1B токенов; этап разреженного обучения — ~943.7B токенов, top-k=2048 и LR основной модели примерно 7.3e-6.
DSA реализован в рамках MLA в режиме MQA для декодирования, так что латентные KV записи разделяются между головами запросов — это соответствует требованиям уровня ядра по повторному использованию KV для пропускной способности. В релизе упоминаются TileLang, DeepGEMM (логиты индексатора) и FlashMLA (разреженные ядра). Репозиторий и технические детали: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
Эффективность, бенчмарки и операционные сигналы
На H800 кластерах (эталонная цена $2/GPU-hour) DeepSeek предоставляет кривые стоимости на миллион токенов для prefill и decode. Decode выигрывает существенно с DSA, prefill также получает преимущества через masked MHA-симуляцию на коротких длинах. Публикуемые в соцсетях цифры вроде «~83%» соответствуют заявлению DeepSeek о примерно 6× снижении стоимости decode при 128k, но разработчики рекомендуют рассматривать это как отчет производителя до независимой проверки с сопоставимыми батчами и политиками кеша.
В релизе заявлена сохранность качества: MMLU-Pro = 85.0 (без изменений), небольшие сдвиги по ряду задач рассуждения, и плоская или положительная динамика по агентным/поисковым задачам (например, BrowseComp 40.1 vs 38.5). Авторы отмечают, что промежуточные чекпоинты, дающие сопоставимое число токенов, сокращают разрывы.
Практическое значение
V3.2-Exp показывает, что обучаемая разрежённость может значительно улучшить экономику работы с длинными контекстами при сохранении паритета по бенчмаркам. Командам, использующим RAG и обработку длинных документов, стоит протестировать V3.2-Exp как вариант для A/B — но предварительно валидировать пропускную способность, батчинг и качество на своей инфраструктуре.