Презентация Confucius Code Agent: Масштабируемый AI для разработки ПО

Эволюция AI в разработке ПО

Насколько далеко может зайти средний языковой модель, если настоящая инновация перемещается от основного каркаса к инструментам агента? Исследователи Meta и Гарварда представили Confucius Code Agent, открытого AI программиста, построенного на SDK Confucius, предназначенного для промышленных репозиториев ПО и долгосрочных сессий. Система нацелена на реальные проекты GitHub, сложные инструментальные цепочки и воспроизводимые результаты на бенчмарках, таких как SWE Bench Pro и SWE Bench Verified, обеспечивая полное покрытие для разработчиков.

Confucius Code Agent

SDK Confucius: Фокус на опыте разработчиков

SDK Confucius — это платформа для разработки агентов, которая рассматривает каркасирование как центральную задачу проектирования. Она организована вокруг трех осей: Опыт Агента, Опыт Пользователя и Опыт Разработчика.

Опыт Агента: Управляет тем, что видит модель, включая макет контекста, рабочую память и результаты инструментов.
Опыт Пользователя: Сосредотачивается на создании читаемых трасс, дифференциалов кода и защит для поддержки инженеров.
Опыт Разработчика: Концентрируется на наблюдаемости, конфигурации и отладке самого агента.

SDK включает три основных механизма: унифицированный оркестратор с иерархической рабочей памятью, систему записи заметок и модульный интерфейс расширений для инструментов. Мета-агент автоматизирует синтез конфигураций агентов через цикл построения, тестирования и улучшения.

SDK Framework

Иерархическая рабочая память: Улучшение программирования

Реальные задачи ПО на SWE Bench Pro часто требуют рассуждений о множестве файлов и взаимодействиях. Оркестратор в SDK Confucius поддерживает иерархическую рабочую память, обобщая предыдущие этапы и сохраняя важный контекст для будущих взаимодействий. Этот дизайн гарантирует, что модель работает в пределах контекса, сохраняя важные артефакты, такие как патчи и журналы ошибок.

Обучение через постоянные заметки

Система записи заметок использует специального агента для создания структурированных маркдаун-заметок из трасс выполнения, захватывая стратегии и соглашения, которые могут быть повторно использованы в дальнейшем. Исследования показали, что использование заметок эффективно уменьшает количество ходов и улучшает Resolve@1 с 53,0 до 54,4.

Модульные расширения для улучшенного использования инструментов

SDK Confucius экспонирует инструменты как расширения, позволяя настраивать управление состоянием и привязкой подсказок. Исследования сложных конфигураций инструментов показали, что улучшение управления инструментами значительно увеличивает показатели Resolve@1, подчеркивая важность последовательности инструментов.

Modular Extensions

Мета-агент: Революция в проектировании агентов

Мета-агент SDK предлагает итерировать над предложениями конфигураций на основе описаний на естественном языке и уточняет их через цикл обратной связи. Этот инновационный процесс превращает проектирование агентов в задачу оптимизации, управляемую LLM.

Эффективность на SWE Bench Pro

Оценка на SWE Bench Pro включает модификацию реальных репозиториев по 731 проблеме GitHub. Результаты по Resolve@1 следующие:

Claude 4 Sonnet с Confucius Code Agent: 52,7
Claude 4.5 Sonnet с SWE Agent: 43,6

Эти результаты показывают, что сильные каркасные структуры могут превзойти мощность моделей при использовании слабых каркасов.

Основные выводы

Каркасирование против размера модели: Эффективные каркасные структуры позволяют моделям, таким как Claude 4.5 Sonnet, превосходить по производительности.
Архитектура памяти: Иерархическая рабочая память жизненно важна для задач, охватывающих несколько файлов.
Постоянные заметки как эффективная память: Структурированные заметки функционируют как эффективная память между сессиями.
Влияние конфигурации инструментов: Как инструменты последовательны, существенно влияет на показатели успеха.
Автоматизированное проектирование агентов: Мета-агент предлагает упрощенный подход к конфигурации и уточнению агентов.

Заключение

Confucius Code Agent — это прорыв в использовании агентов для улучшенных возможностей разработки ПО. Интегрируя различные стратегии, он устанавливает новый стандарт для будущих разработок в AI-поддерживаемых решениях для программирования.