ReasoningBank: сло́й памяти Google, который позволяет LLM-агентам саморазвиваться на этапе тестирования

Проблема с памятью агентов

LLM-агенты выполняют многошаговые задачи — веб-браузинг, работу с ПО, исправление ошибок в репозиториях — но редко накапливают и повторно используют опыт. Типичные системы памяти сохраняют сырые логи или только успешные сценарии. Такие подходы хрупки в новых средах и пропускают важные сигналы из неудач, где часто скрыты практические уроки.

Идея ReasoningBank

ReasoningBank предлагает представлять память как компактные, понятные человеку элементы стратегии вместо сырых траекторий. Каждый элемент содержит заголовок, однострочное описание и содержимое с практическими принципами: эвристики, проверки, ограничения. Примеры таких стратегий: предпочитать страницы аккаунта для пользовательских данных, проверять режим пагинации, избегать ловушек бесконечной прокрутки, сверять состояние с заданием.

Цикл извлечения и дистилляции

Хранение и поиск работают через эмбеддинги. Для новой задачи извлекаются top-k релевантных элементов и внедряются как системные подсказки. После выполнения новая трасса оценивается и дистиллируется в дополнительные элементы памяти, которые добавляются обратно. Цикл прост: retrieve → inject → judge → distill → append, поэтому улучшения объясняются абстракцией стратегий, а не сложной логикой управления памятью.

Обучение на ошибках

В отличие от подходов, сохраняющих только успешные сценарии, ReasoningBank кодирует негативные ограничители из неудач, например 'не полагаться на поиск, если сайт отключил индексирование' или 'подтвердить сохранение перед навигацией'. Эти правила предотвращают повторение ошибок и проще переносятся между доменами.

Memory-aware test-time scaling (MaTTS)

ReasoningBank сочетается с Memory-aware test-time scaling. Простое увеличение числа прогонов эффективно только если система умеет учиться на дополнительных траекториях. MaTTS интегрирует масштабирование с памятью стратегий двумя режимами:

Parallel MaTTS: генерировать k параллельных прогона и контрастировать их для улучшения памяти стратегий.
Sequential MaTTS: итеративно уточнять одну траекторию, добывая промежуточные заметки как сигналы памяти.

Синергия двунаправленна: более богатое исследование улучшает память, а улучшенная память ведет исследование в более перспективные ветви. Эксперименты показывают более устойчивые и сильные приросты по сравнению с обычным best-of-N без памяти.

Результаты

На веб- и инженерных бенчмарках комбинация ReasoningBank и MaTTS дала до 34.2% относительного прироста успешности задач по сравнению с отсутствием памяти и сократила число интеракций примерно на 16%. Снижение шагов было наиболее заметно в успешных прогонах, что указывает на уменьшение избыточных действий.

Где вставлять в стек агента

ReasoningBank задуман как подключаемый слой памяти для интерактивных агентов с ReAct-подобной петлей решений или тестовым масштабированием. Он не заменяет верификаторы и планировщики, а усиливает их, внедряя дистиллированные уроки на уровне промпта или системных подсказок. Для веб-задач он дополняет BrowserGym, WebArena и Mind2Web; для задач по разработке ПО он работает поверх SWE-Bench-Verified.

Бумага и ресурсы

Статья доступна на arXiv: https://arxiv.org/pdf/2509.25140 Код, туториалы и ноутбуки можно найти на GitHub проекта.