Достижение 50.8% на SWE-Bench с помощью монолитных моделей с длинным контекстом без использования инструментов
Новое исследование показывает, что мощные модели с длинным контекстом могут достигать 50.8% точности на бенчмарке SWE-Bench без сложных инструментальных каркасов, упрощая архитектуру LM-агентов.
Развитие LM-агентов для сложных задач
Недавние достижения в области LM-агентов показали высокий потенциал для автоматизации сложных реальных задач посредством предложения и выполнения действий через API. Эти приложения охватывают программную инженерию, робототехнику и научные эксперименты. Для решения задач повышенной сложности архитектуры LM-агентов развились, включив мультиагентные системы, многозадачный поиск и индивидуальные каркасы для оптимизации результатов.
Проблемы частичной наблюдаемости и использования инструментов
Ключевым вызовом является необходимость эффективного изучения и понимания окружающей среды агентами. Для этого были разработаны инженерные каркасы, включающие инструменты, механизмы памяти и кастомные пайплайны. Большинство существующих методов предполагают частичную наблюдаемость и требуют постепенного сбора данных. Такой подход оправдан в динамичных или новых условиях, но менее применим в полностью наблюдаемых средах, таких как SWE-Bench, где вся необходимая информация доступна сразу.
Стратегии LM-агентов в программной инженерии
Исследования в области программной инженерии сосредоточены на двух основных подходах: системах на базе агентов и структурированных пайплайнах. Агентные системы, например SWE-Agent и OpenHands CodeAct, позволяют LMs автономно взаимодействовать с кодовой базой через специальные интерфейсы и инструменты поиска. Другие модели, такие как Moatless, AutoCodeRover и SpecRover, улучшают локализацию и дизайн каркасов. Структурированные пайплайны, например Agentless и CodeMonkey, разбивают задачи на этапы локализации, исправления и валидации. Все эти методы зависят от инженерных компонентов.
Использование моделей с длинным контекстом (LCLM)
В данном исследовании предлагается использовать LCLMs для прямого анализа всей среды задачи без сложных каркасов. Современные архитектуры и инфраструктура LCLM позволяют превосходить системы с поиском и уменьшать зависимость от внешних инструментов.
Эксперименты с моделями Gemini
Исследователи из Стэнфорда, IBM и Университета Торонто проверили необходимость сложных каркасов на задачах SWE-Bench. Применение LCLM Gemini-1.5-Pro с простым промптингом без каркасов дало 38% точности, а Gemini-2.5-Pro достиг 50.8%. Гибридный подход с Gemini-1.5-Pro и Claude-3.7 показал 48.6%, подтверждая эффективность упрощенной архитектуры.
Агенты состояния-в-контексте и методы
Традиционные LM-агенты используют интерактивное исследование из-за частичной наблюдаемости, но многие задачи, например отладка, полностью наблюдаемы. В исследовании предложены агенты состояния-в-контексте, которые обрабатывают полное или сжатое состояние среды с помощью LCLM, обходясь без сложных каркасов. Для больших кодовых баз используется ранжированное сжатие для выбора релевантных файлов, помещающихся в контекст. Представлены два метода:
- DIRECTSOLVE: LCLM решает задачи, используя полный контекст.
- SELECTSOLVE: LCLM локализует релевантные файлы для короткоконтекстных LMs (SCLMs), которые решают задачи.
Оба метода применяют целевые форматы патчей и валидацию для точности и снижения галлюцинаций.
Оценка на SWE-Bench Verified
Упрощённая архитектура была протестирована на бенчмарке SWE-Bench Verified с 500 реальными задачами. Методы DIRECTSOLVE и SELECTSOLVE используют LCLMs Gemini-1.5-Pro, Gemini-2.5-Pro; SELECTSOLVE также применяет SCLM Claude-3.7-Sonnet для генерации патчей. Результаты показывают, что DIRECTSOLVE превосходит сложные агенты, такие как Agentless и CodeAct, при минимальной инженерии. SELECTSOLVE улучшает точность благодаря более мощным моделям патчей. Анализы подчеркивают важность цепочки рассуждений, переформулировки кода и экономного дизайна контекста. Правильное расположение файлов в промпте повышает эффективность, выявляя ограничения длинного контекста.
Стоимость и практические аспекты
Методы на базе LCLM сейчас дороже существующих: $2.60 за задачу против $0.25 (Agentless) и $0.87 (CodeAct). Тем не менее, стоимость вывода быстро падает, а увеличение длины контекста делает LCLMs более доступными. Техники KV-кеширования значительно снижают расходы после первых запусков — до $0.725. Хотя изменения в кодовой базе ограничивают кеширование, ожидаются улучшения. LCLMs способны работать с длинной историей взаимодействий, уменьшая необходимость сложных механизмов памяти и поиска. Важно, что модели LCLM без каркасов показывают конкурентоспособные результаты на SWE-Bench.
Дополнительная информация
Для подробностей ознакомьтесь с оригинальной исследовательской работой и следите за обновлениями проекта в Twitter и на ML SubReddit с более чем 90 тысячами участников.
Switch Language
Read this article in English