ACE — самонастраивающиеся LLM через эволюцию контекстного плейбука, а не дообучение

Краткая суть

Agentic Context Engineering (ACE) предлагает вести адаптацию моделей через контекст: вместо правки весов ACE постепенно редактирует и расширяет постоянный входной плейбук, где аккумулируются прикладные тактики и уроки. Исследование команды из Stanford, SambaNova Systems и UC Berkeley показывает рост качества на задачах агентов и финансовых задачах при существенном снижении задержек и токен-издержек.

Как работает ACE

В ACE контекст — это живой артефакт, за которым следят три роли, использующие один и тот же базовый LLM для изоляции эффекта контекста:

Дизайн ACE предусматривает небольшие инкрементальные дельты и стратегию роста с последующей доработкой. Это сохраняет полезную историю и предотвращает «коллапс контекста», который бывает при монолитных переписках. В экспериментах зафиксирован один и тот же базовый модельный бэкенд (DeepSeek-V3.1), чтобы количественно отделить эффект контекста от изменения весов.

Бенчмарки и результаты

AppWorld (агенты)

На базе ReAct, ReAct+ACE превысил сильные контекстные базовые методы (ICL, GEPA, Dynamic Cheatsheet). Отмечены +10.6% в среднем по выбранным базам и около +7.6% лучше Dynamic Cheatsheet при онлайновой адаптации. На снимке лидерборда AppWorld от 20 сентября 2025 года ReAct+ACE набрал 59.4% против 60.3% у IBM CUGA (GPT-4.1), при этом превосходя CUGA на более сложном тест-челлендж сплите и используя меньшую open-source базовую модель.

Финансовые задачи

По задачам FiNER (тегирование токенов) и XBRL Formula (числовые расчёты) ACE показывает в среднем +8.6% над базами при офлайновой адаптации с истинными метками. Метод также работает с сигналами только по исполнению, но итог зависит от качества таких сигналов.

Стоимость и задержка

ACE снижает накладные расходы адаптации за счёт не-LLM слияний и локализованных обновлений. Зафиксированы сокращения задержки в офлайне (AppWorld) примерно на −82.3% и −75.1% меньшего числа прогонов по сравнению с GEPA. В онлайне (FiNER) заявлено −91.5% по задержке и −83.6% по токен-издержкам против Dynamic Cheatsheet. Эти эффекты объясняются детерминированными малыми слияниями и целенаправленным ростом плейбука вместо повторных тяжёлых регенераций.

Практическое значение

ACE делает контекстную инженерию реальной альтернативой обновлению весов для многих агентных сценариев. Поддержание кураторского, инкрементально растущего плейбука тактик позволяет моделям само-настраиваться без изменения чекпоинтов, сохраняя историю и снижая риск разрушительных переписей. Подход даёт измеримые выгоды по точности и экономии времени/ресурсов.

Ограничения

Эффективность ACE зависит от качества сигналов обратной связи и сложности задач. Хотя детерминированные слияния и прунинг помогают, результаты привязаны к тому, насколько адекватно Reflector и Curator формируют и отбирают уроки. На практике нужно отслеживать рост плейбука и чистоту входных сигналов, чтобы не накапливать шум или смещения.

Где читать подробнее

Полный текст статьи доступен по ссылке: https://arxiv.org/pdf/2510.04618