Together AI представила DeepSWE: открытый RL-обученный агент для кодирования с рекордными результатами на SWEBench
Together AI представила DeepSWE — открытого RL-агента для программирования на базе Qwen3-32B с лучшими результатами на бенчмарке SWEBench, устанавливая новые стандарты автономных AI для разработки.
DeepSWE: новая эра в AI для программной инженерии
Компания Together AI выпустила DeepSWE — современного агента для программной инженерии, полностью обученного с использованием обучения с подкреплением (RL). Созданный на базе мощной языковой модели Qwen3-32B, DeepSWE достигает впечатляющей точности 59% на бенчмарке SWEBench-Verified и 42,2% Pass@1. Эти показатели выводят модель в лидеры среди открытых моделей и знаменуют важный прорыв в области автономных AI для программирования.
Обучение с подкреплением меняет генерацию кода
В отличие от традиционного дообучения с учителем, DeepSWE использует rLLM — модульный RL-фреймворк Agentica, ориентированный на языковых агентов. Такой подход позволяет DeepSWE адаптироваться и улучшаться благодаря обратной связи из реального мира, а не только статичным датасетам. В тренировочном процессе применяется датасет R2EGym — бенчмарк, специально разработанный для RL-задач в программной инженерии, ориентированных на решение практических задач: исправление багов, завершение функций, редактирование кода. Это приближает обучение к тому, как инженеры-люди итеративно улучшают результаты.
Результаты и возможности
На SWEBench-Verified DeepSWE показывает 59% — значительный скачок по сравнению с предыдущими открытыми моделями. Результат 42,2% Pass@1 демонстрирует способность решать задачи с первого раза. Эти показатели подтверждают эффективность RL-обучения для повышения точности и итеративного мышления AI в генерации кода. Архитектура Qwen3-32B обеспечивает масштабируемость и практическое применение в реальных условиях разработки.
Открытость и сотрудничество с сообществом
Together AI и Agentica открыли исходные коды DeepSWE и всей инфраструктуры обучения, включая фреймворк rLLM, датасет R2EGym и скрипты настройки. Это способствует воспроизводимости и приглашает разработчиков и исследователей расширять и адаптировать агента под разные задачи. Доступные ресурсы:
- Весы модели: Hugging Face – DeepSWE
- Фреймворк обучения: rLLM GitHub Repository
- Документация по обучению: DeepSWE Training Overview
От языковых моделей к адаптивным агентам
DeepSWE символизирует переход от статичных моделей языкового понимания к динамичным агентам, которые учатся и совершенствуются во взаимодействии с окружением. RL позволяет моделям улучшаться после запуска, адаптируясь к новым задачам и процессам. Это открывает возможности для локального запуска и кастомизации под нужды организаций, включая области веб-навигации, робототехники и автономной исследовательской поддержки.
Релиз DeepSWE — важный шаг к созданию более интеллектуальных и ориентированных на действия AI-агентов для программной инженерии, соединяющий лучшие достижения языкового моделирования и обучения с подкреплением для создания адаптивных и высокоэффективных помощников разработчиков.
Switch Language
Read this article in English