Презентация Confucius Code Agent: Масштабируемый AI для разработки ПО
Meta и Гарвард представляют AI для масштабного программирования, повышая производительность в реальных кодовых базах.
Эволюция AI в разработке ПО
Насколько далеко может зайти средний языковой модель, если настоящая инновация перемещается от основного каркаса к инструментам агента? Исследователи Meta и Гарварда представили Confucius Code Agent, открытого AI программиста, построенного на SDK Confucius, предназначенного для промышленных репозиториев ПО и долгосрочных сессий. Система нацелена на реальные проекты GitHub, сложные инструментальные цепочки и воспроизводимые результаты на бенчмарках, таких как SWE Bench Pro и SWE Bench Verified, обеспечивая полное покрытие для разработчиков.

SDK Confucius: Фокус на опыте разработчиков
SDK Confucius — это платформа для разработки агентов, которая рассматривает каркасирование как центральную задачу проектирования. Она организована вокруг трех осей: Опыт Агента, Опыт Пользователя и Опыт Разработчика.
- Опыт Агента: Управляет тем, что видит модель, включая макет контекста, рабочую память и результаты инструментов.
- Опыт Пользователя: Сосредотачивается на создании читаемых трасс, дифференциалов кода и защит для поддержки инженеров.
- Опыт Разработчика: Концентрируется на наблюдаемости, конфигурации и отладке самого агента.
SDK включает три основных механизма: унифицированный оркестратор с иерархической рабочей памятью, систему записи заметок и модульный интерфейс расширений для инструментов. Мета-агент автоматизирует синтез конфигураций агентов через цикл построения, тестирования и улучшения.

Иерархическая рабочая память: Улучшение программирования
Реальные задачи ПО на SWE Bench Pro часто требуют рассуждений о множестве файлов и взаимодействиях. Оркестратор в SDK Confucius поддерживает иерархическую рабочую память, обобщая предыдущие этапы и сохраняя важный контекст для будущих взаимодействий. Этот дизайн гарантирует, что модель работает в пределах контекса, сохраняя важные артефакты, такие как патчи и журналы ошибок.
Обучение через постоянные заметки
Система записи заметок использует специального агента для создания структурированных маркдаун-заметок из трасс выполнения, захватывая стратегии и соглашения, которые могут быть повторно использованы в дальнейшем. Исследования показали, что использование заметок эффективно уменьшает количество ходов и улучшает Resolve@1 с 53,0 до 54,4.
Модульные расширения для улучшенного использования инструментов
SDK Confucius экспонирует инструменты как расширения, позволяя настраивать управление состоянием и привязкой подсказок. Исследования сложных конфигураций инструментов показали, что улучшение управления инструментами значительно увеличивает показатели Resolve@1, подчеркивая важность последовательности инструментов.

Мета-агент: Революция в проектировании агентов
Мета-агент SDK предлагает итерировать над предложениями конфигураций на основе описаний на естественном языке и уточняет их через цикл обратной связи. Этот инновационный процесс превращает проектирование агентов в задачу оптимизации, управляемую LLM.
Эффективность на SWE Bench Pro
Оценка на SWE Bench Pro включает модификацию реальных репозиториев по 731 проблеме GitHub. Результаты по Resolve@1 следующие:
- Claude 4 Sonnet с Confucius Code Agent: 52,7
- Claude 4.5 Sonnet с SWE Agent: 43,6
Эти результаты показывают, что сильные каркасные структуры могут превзойти мощность моделей при использовании слабых каркасов.
Основные выводы
- Каркасирование против размера модели: Эффективные каркасные структуры позволяют моделям, таким как Claude 4.5 Sonnet, превосходить по производительности.
- Архитектура памяти: Иерархическая рабочая память жизненно важна для задач, охватывающих несколько файлов.
- Постоянные заметки как эффективная память: Структурированные заметки функционируют как эффективная память между сессиями.
- Влияние конфигурации инструментов: Как инструменты последовательны, существенно влияет на показатели успеха.
- Автоматизированное проектирование агентов: Мета-агент предлагает упрощенный подход к конфигурации и уточнению агентов.
Заключение
Confucius Code Agent — это прорыв в использовании агентов для улучшенных возможностей разработки ПО. Интегрируя различные стратегии, он устанавливает новый стандарт для будущих разработок в AI-поддерживаемых решениях для программирования.
Switch Language
Read this article in English