DeepSeek представляет R1-0528: открытая AI-модель с улучшенной математикой и кодированием на одном GPU

Существенные улучшения в логике и выводе

Китайский AI-единорог DeepSeek выпустил обновленную версию своей модели рассуждений под названием DeepSeek-R1-0528. Эта версия повышает возможности модели в области математики, программирования и общей логики, делая её сильным открытым конкурентом таким лидерам, как OpenAI o3 и Google Gemini 2.5 Pro.

В обновлении R1-0528 значительно улучшена глубина рассуждений и точность вывода. Модель показала рост результатов на математическом бенчмарке AIME 2025 с 70% до 87,5%. Это связано с более глубоким процессом рассуждений — в среднем 23 000 токенов на вопрос вместо 12 000 в предыдущей версии. Такие достижения стали возможны благодаря увеличению вычислительных ресурсов и оптимизациям алгоритмов после обучения.

Улучшенные способности генерации кода

Помимо математических задач, DeepSeek-R1-0528 демонстрирует высокие результаты в задачах генерации кода. По данным LiveCodeBench, модель занимает место сразу после OpenAI o4 mini и o3, превосходя по производительности xAI Grok 3 mini и Alibaba Qwen 3.

Приверженность открытым исходным кодам

DeepSeek продолжает поддерживать принципы открытого ПО, выпустив R1-0528 под лицензией MIT. Это позволяет разработчикам свободно модифицировать и использовать модель. Весовые коэффициенты доступны на Hugging Face с подробной документацией для локального запуска и интеграции через API. Такой подход выделяется на фоне многих закрытых моделей, способствуя прозрачности и доступности в сообществе AI.

Легковесная дистиллированная версия для одного GPU

Понимая спрос на эффективные AI-решения, DeepSeek выпустил дистиллированную версию DeepSeek-R1-0528-Qwen3-8B. Эта модель, дообученная на базе Alibaba Qwen3-8B с использованием текстов, сгенерированных R1-0528, показывает лучшие результаты среди открытых моделей на AIME 2024. Она оптимизирована для работы на одном GPU, что делает продвинутые AI-технологии доступными для разработчиков с ограниченными ресурсами.

Модерация контента и соблюдение норм

Модель R1-0528 отличается более строгой модерацией контента по сравнению с предыдущими версиями. Независимые тесты показали, что модель избегает или ограниченно отвечает на политически чувствительные темы, такие как события на площади Тяньаньмэнь и статус Тайваня. Это соответствует китайским требованиям по ограничению контента.

Глобальные последствия и реакция индустрии

Выпуск R1-0528 демонстрирует растущее влияние Китая в сфере AI, бросая вызов доминированию американских компаний. Способность DeepSeek разрабатывать конкурентоспособные AI-модели с меньшими затратами вызвала обеспокоенность у лидеров рынка, таких как OpenAI, которые опасаются возможного государственного контроля. Этот факт отражает меняющуюся динамику в глобальных исследованиях AI и важность открытых моделей для стимулирования инноваций и конкуренции.

Ознакомьтесь с открытыми весами и попробуйте DeepSeek-R1-0528, чтобы оценить его продвинутые возможности в рассуждениях и программировании.