Together AI представила DeepSWE: открытый RL-обученный агент для кодирования с рекордными результатами на SWEBench

DeepSWE: новая эра в AI для программной инженерии

Компания Together AI выпустила DeepSWE — современного агента для программной инженерии, полностью обученного с использованием обучения с подкреплением (RL). Созданный на базе мощной языковой модели Qwen3-32B, DeepSWE достигает впечатляющей точности 59% на бенчмарке SWEBench-Verified и 42,2% Pass@1. Эти показатели выводят модель в лидеры среди открытых моделей и знаменуют важный прорыв в области автономных AI для программирования.

Обучение с подкреплением меняет генерацию кода

В отличие от традиционного дообучения с учителем, DeepSWE использует rLLM — модульный RL-фреймворк Agentica, ориентированный на языковых агентов. Такой подход позволяет DeepSWE адаптироваться и улучшаться благодаря обратной связи из реального мира, а не только статичным датасетам. В тренировочном процессе применяется датасет R2EGym — бенчмарк, специально разработанный для RL-задач в программной инженерии, ориентированных на решение практических задач: исправление багов, завершение функций, редактирование кода. Это приближает обучение к тому, как инженеры-люди итеративно улучшают результаты.

Результаты и возможности

На SWEBench-Verified DeepSWE показывает 59% — значительный скачок по сравнению с предыдущими открытыми моделями. Результат 42,2% Pass@1 демонстрирует способность решать задачи с первого раза. Эти показатели подтверждают эффективность RL-обучения для повышения точности и итеративного мышления AI в генерации кода. Архитектура Qwen3-32B обеспечивает масштабируемость и практическое применение в реальных условиях разработки.

Открытость и сотрудничество с сообществом

Together AI и Agentica открыли исходные коды DeepSWE и всей инфраструктуры обучения, включая фреймворк rLLM, датасет R2EGym и скрипты настройки. Это способствует воспроизводимости и приглашает разработчиков и исследователей расширять и адаптировать агента под разные задачи. Доступные ресурсы:

Весы модели: Hugging Face – DeepSWE
Фреймворк обучения: rLLM GitHub Repository
Документация по обучению: DeepSWE Training Overview

От языковых моделей к адаптивным агентам

DeepSWE символизирует переход от статичных моделей языкового понимания к динамичным агентам, которые учатся и совершенствуются во взаимодействии с окружением. RL позволяет моделям улучшаться после запуска, адаптируясь к новым задачам и процессам. Это открывает возможности для локального запуска и кастомизации под нужды организаций, включая области веб-навигации, робототехники и автономной исследовательской поддержки.