DeepSeek представляет V3.2 для долгосрочного Reasoning
Узнайте о DeepSeek-V3.2, модели, разработанной для повышения качества reasoning в длинных контекстах с уменьшенными затратами.
Обзор DeepSeek-V3.2
Как достичь reasoning на уровне GPT-5 для долгосрочных задач без exorbitant затрат? DeepSeek представляет DeepSeek-V3.2 и DeepSeek-V3.2-Speciale, две модели, ориентированные на высокое качество reasoning и адаптивные рабочие процессы с открытыми весами и производственными API.
Технологии DeepSeek
Модели используют Sparse Attention (DSA), стек обучения с подкреплением GRPO и протокол, ориентированный на инструменты. Они показывают производительность, сопоставимую с GPT-5, где DeepSeek-V3.2-Speciale достигает уровня reasoning Gemini 3.0 Pro в бенчмарках.
Механизм Sparse Attention
Обе модели основаны на трансформере Mixture of Experts DeepSeek-V3. С 671B общих параметров и 37B активных параметров на токен, DSA повышает эффективность.
- Сложность внимания меняется с O(L²) на O(kL), что значительно улучшает эффективность затрат.
- Бенчмарки показывают 50% сокращение затрат на долгосрочную иншуриацию.
Продолженная предобученность
DeepSeek Sparse Attention (DSA) основывается на продолженной тренировке на DeepSeek-V3.2 Terminus. На начальном этапе низкопараметрические модели оптимизируют релевантность через ограниченное количество шагов. В разреженной фазе осуществляется более глубокая тренировочная программа с 944B токенами, используя расчетные потери согласования.
GRPO и обучение с подкреплением
DeepSeek-V3.2 использует Group Relative Policy Optimization (GRPO) для обучения с подкреплением, с вычислительными затратами, превышающими 10% от предобучения. Индивидуальные методы обучения охватывают определенные области, такие как математика и программирование.
Данные агентов и протоколы
Команда исследователей разработала обширный синтетический набор данных для агентов, чтобы поддержать использование инструментов и reasoning. На этапе вывода DeepSeek-V3.2 поддерживает режимы мышления и немышления, позволяя гибко управлять reasoning.
Конкурсы и производительность
DeepSeek-V3.2 и особенно Speciale показали впечатляющие результаты, достигнув золотых уровней в международных математических и программных конкурсах.
Ключевые выводы
- DeepSeek-V3.2 вводит Sparse Attention, позволяя более эффективное reasoning в долгосрочных контекстах.
- Модели сохраняют надежный 671B параметр MoE backbone, что делает практическими длинные документы и рабочие процессы.
- GRPO усиливает способность платформы к обучению, улучшая производительность в нескольких областях.
- Интеграция мышления в использование инструментов позволяет сохранять внутренние рассуждения во время операций.
Для получения дополнительных деталей ознакомьтесь с Документом DeepSeek и исследуйте Весовые Модели.
Switch Language
Read this article in English