DeepSeek представляет V3.2 для долгосрочного Reasoning

Обзор DeepSeek-V3.2

Как достичь reasoning на уровне GPT-5 для долгосрочных задач без exorbitant затрат? DeepSeek представляет DeepSeek-V3.2 и DeepSeek-V3.2-Speciale, две модели, ориентированные на высокое качество reasoning и адаптивные рабочие процессы с открытыми весами и производственными API.

Технологии DeepSeek

Модели используют Sparse Attention (DSA), стек обучения с подкреплением GRPO и протокол, ориентированный на инструменты. Они показывают производительность, сопоставимую с GPT-5, где DeepSeek-V3.2-Speciale достигает уровня reasoning Gemini 3.0 Pro в бенчмарках.

Механизм Sparse Attention

Обе модели основаны на трансформере Mixture of Experts DeepSeek-V3. С 671B общих параметров и 37B активных параметров на токен, DSA повышает эффективность.

Сложность внимания меняется с O(L²) на O(kL), что значительно улучшает эффективность затрат.
Бенчмарки показывают 50% сокращение затрат на долгосрочную иншуриацию.

Продолженная предобученность

DeepSeek Sparse Attention (DSA) основывается на продолженной тренировке на DeepSeek-V3.2 Terminus. На начальном этапе низкопараметрические модели оптимизируют релевантность через ограниченное количество шагов. В разреженной фазе осуществляется более глубокая тренировочная программа с 944B токенами, используя расчетные потери согласования.

GRPO и обучение с подкреплением

DeepSeek-V3.2 использует Group Relative Policy Optimization (GRPO) для обучения с подкреплением, с вычислительными затратами, превышающими 10% от предобучения. Индивидуальные методы обучения охватывают определенные области, такие как математика и программирование.

Данные агентов и протоколы

Команда исследователей разработала обширный синтетический набор данных для агентов, чтобы поддержать использование инструментов и reasoning. На этапе вывода DeepSeek-V3.2 поддерживает режимы мышления и немышления, позволяя гибко управлять reasoning.

Конкурсы и производительность

DeepSeek-V3.2 и особенно Speciale показали впечатляющие результаты, достигнув золотых уровней в международных математических и программных конкурсах.

Ключевые выводы

DeepSeek-V3.2 вводит Sparse Attention, позволяя более эффективное reasoning в долгосрочных контекстах.
Модели сохраняют надежный 671B параметр MoE backbone, что делает практическими длинные документы и рабочие процессы.
GRPO усиливает способность платформы к обучению, улучшая производительность в нескольких областях.
Интеграция мышления в использование инструментов позволяет сохранять внутренние рассуждения во время операций.

Для получения дополнительных деталей ознакомьтесь с Документом DeepSeek и исследуйте Весовые Модели.