Объединение долгосрочной и краткосрочной памяти в LLM-агентах
Узнайте, как Agentic Memory оптимизирует управление памятью в LLM-агентах.
Проектирование автономного управления памятью в LLM
Как разработать LLM-агента, который решает самостоятельно, что хранить в долгосрочной памяти, что удерживать в краткосрочном контексте и что выбрасывать без предварительно настроенных эвристик или дополнительных контроллеров? Может ли единая политика научиться управлять обоими типами памяти через одно и то же действие в пространстве генерации текста?
Исследователи из Alibaba Group и Университета Уханя представляют Agentic Memory, или AgeMem, который позволяет агентам больших языковых моделей обучаться управлению как долгосрочной, так и краткосрочной памятью в рамках одной политики. Вместо того чтобы полагаться на написанные от руки правила или внешние контроллеры, агент самостоятельно решает, когда сохранять, извлекать, обобщать и забывать, используя интегрированные инструменты памяти в рамках действия модели.
Текущие проблемы управления памятью в LLM
Почему текущие LLM-агенты испытывают трудности с памятью
Большинство рамок агентов рассматривают память как две слабо связанные системы. Долгосрочная память хранит профили пользователей, информацию о задачах и предыдущие взаимодействия между сессиями, тогда как краткосрочная память охватывает текущее контекстное окно, содержащее активный диалог и извлеченные документы.
Существующие системы строят эти две составляющие изолированно. Долгосрочная память управляется через внешние хранилища, такие как векторные базы данных, с использованием простых триггеров добавления и извлечения, в то время как краткосрочная память обрабатывается с помощью генерации, дополненной извлечением или расписанием обобщений. Это разделение создает несколько проблем:
- Долгосрочная и краткосрочная память оптимизируются независимо, без обучения их взаимодействию от конца до конца.
- Эвристики управляют тем, когда записывать в память и когда обобщать. Эти правила могут быть нестабильными, пропуская редкие, но важные события.
- Добавление внешних контроллеров или специализированных моделей увеличивает и стоимость, и сложность системы.
AgeMem устраняет внешний контроллер, интегрируя операции памяти непосредственно в политику агента.
Инструменты памяти в пространстве действий агента
Память как инструменты
В AgeMem операции памяти представлены как инструменты в пространстве действий агента. На каждом шаге модель может выдавать либо обычные текстовые токены, либо вызов инструмента, с шестью определенными инструментами:
Для долгосрочной памяти:
ADD: сохраняет новый элемент памяти с содержимым и метаданными.UPDATE: изменяет существующую запись памяти.DELETE: удаляет устаревшие или недействительные элементы.
Для краткосрочной памяти:
RETRIEVE: выполняет семантический поиск по долгосрочной памяти, вводя соответствующие элементы в текущий контекст.SUMMARY: сжимает отрезки диалога в более короткие обобщения.FILTER: удаляет сегменты контекста, которые не полезны для будущего рассуждения.
Протокол взаимодействия принимает структурированный формат. Каждый шаг начинается с блока <think>, где модель оценивает свои возможности, а затем выдает либо блок <tool_call> с JSON-списком вызовов инструментов, либо блок <answer> с ответом для пользователя. Таким образом, операции с памятью становятся основными решениями, а не побочными эфектами.
Обучение с подкреплением для единого управления памятью
Трехступенчатое обучение с подкреплением
AgeMem обучается с использованием обучения с подкреплением, которое связывает поведение долгосрочной и краткосрочной памяти. Состояние в момент времени t включает текущий разговорный контекст, хранилище долгосрочной памяти и спецификацию задачи. Политика решает, действовать ли на токен или вызвать инструмент. Траектория обучения для каждого примера проходит через три стадии:
-
Стадия 1: Конструирование долгосрочной памяти
Агент взаимодействует в неформальной обстановке, собирая информацию, которая позже станет актуальной, используяADD,UPDATEиDELETEдля построения и поддержания долгосрочной памяти, при этом краткосрочный контекст естественным образом расширяется во время этой фазы. -
Стадия 2: Управление краткосрочной памятью с отвлекающими факторами
Краткосрочный контекст сбрасывается, а долгосрочная память остается нетронутой. Агент сталкивается с отвлекающим контентом, который связан, но не является необходимым, и управляет краткосрочной памятью, используяSUMMARYиFILTER, чтобы сохранить полезные мысли и устранить шум. -
Стадия 3: Интегрированное рассуждение
При поступлении последнего запроса агент извлекает информацию из долгосрочной памяти, используяRETRIEVE, управляет краткосрочным контекстом и формулирует ответ.
Ключевым аспектом является то, что долгосрочная память сохраняется на протяжении всех стадий, тогда как краткосрочная память очищается между первой и второй стадиями, принуждая модель полагаться на извлечение, а не на остаточный контекст, тем самым выявляя реальные зависимости на длинной дистанции.
Проектирование вознаграждений и применение GRPO
AgeMem использует варьирование GRPO с шаговой выборкой. Для каждой задачи система отбирает множество траекторий, формируя группу. За каждую траекторию вычисляется терминальное вознаграждение, а затем нормализуется в группе для получения сигнала преимущества. Это преимущество передается всем шагам в траектории, что позволяет обучать промежуточные выборы инструментов на основе конечных результатов.
Общая награда состоит из трех основных компонентов:
- Награда за задачу, оценивающая качество ответа по шкале от 0 до 1 с использованием оценщика LLM.
- Награда за контекст, оценка качества операций краткосрочной памяти, включая сжатие, раннее обобщение и сохранение содержимого, относящегося к запросу.
- Награда за память, оценивающая качество долгосрочной памяти, включая долю качественных хранимых элементов, полезность операций поддержания и актуальность извлеченных элементов по отношению к запросу.
Единые веса для этих трех компонентов обеспечивают равный вклад в сигнал обучения, и к этому добавляется штраф за превышение максимальной длины диалога или переполнение контекста.
Экспериментальная установка и ключевые находки
Экспериментальная установка и основные результаты
Команда исследователей проводит дополнительную настройку AgeMem на тренировочном наборе HotpotQA и оценивает его по пяти эталонам:
- ALFWorld для текстовых основанных задач.
- SciWorld для научных тем.
- BabyAI для управления инструкциями.
- Задачи PDDL для планирования.
- HotpotQA для многослойного ответов на вопросы.
Метрики включают уровень успеха для ALFWorld, SciWorld и BabyAI, скорость прогресса для задач PDDL, а также оценку LLM для HotpotQA. Также они определяют метрику качества памяти, используя оценщика LLM, который сравнивает сохраненные воспоминания с поддерживающими фактами HotpotQA.
Базовые линии включают LangMem, A Mem, Mem0, Mem0g и агента без памяти. Основные модели - это Qwen2.5-7B-Instruct и Qwen3-4B-Instruct.
На Qwen2.5-7B-Instruct AgeMem достигает среднего балла 41.96 по пяти эталонам, в то время как лучшая базовая модель Mem0 достигает 37.14. В тестах с Qwen3-4B-Instruct AgeMem достигает 54.31, по сравнению с 45.74 у лучшей модели A Mem.
Качество памяти также значительно улучшается: AgeMem достигает 0.533 на HotpotQA с Qwen2.5-7B и 0.605 с Qwen3-4B, что превышает все базовые значения.
Инструменты краткосрочной памяти способствуют снижению длины подсказок при сохранении производительности, показывая сокращение на 3-5% токенов на каждый запрос по сравнению с базовыми линиями в стиле RAG.
Исследования абляции подтверждают, что каждый компонент имеет важное значение. Добавление только инструментов долгосрочной памяти к базовой модели без памяти уже дает заметные улучшения. Применение обучения с подкреплением к этим инструментам еще больше повышает результаты. Полная система с как долгосрочными, так и краткосрочными инструментами вместе с RL показывает до 21.7% улучшение по сравнению с базовой моделью без памяти на SciWorld.
Импликации для проектирования LLM-агентов
Импликации для проектирования LLM-агентов
AgeMem предлагает шаблон проектирования для будущих агентных систем. Память должна обрабатываться как часть изучаемой политики, а не как две внешние подсистемы. Превращая хранение, извлечение, обобщение и фильтрацию в явные инструменты и обучая их совместно с генерацией языка, агент учится, когда запоминать, когда забывать и как эффективно управлять контекстом на протяжении долгого времени.
Ключевые выводы
- AgeMem преобразует операции памяти в явные инструменты, позволяя той же политике, которая генерирует текст, диктовать, когда выполнять
ADD,UPDATE,DELETE,RETRIEVE,SUMMARYиFILTERпамять. - Долгосрочная и краткосрочная память обучаются совместно через трехступенчатую RL-систему, где долгосрочная память сохраняется на всех этапах, в то время как краткосрочный контекст сбрасывается для поощрения основанного на извлечении рассуждения.
- Функция вознаграждения объединяет точность задач, качество управления контекстом и качество долгосрочной памяти с равными весами, плюс штрафы за переполнение контекста и чрезмерную длину диалога.
- В результате тестов на ALFWorld, SciWorld, BabyAI, задачах PDDL и HotpotQA AgeMem на Qwen2.5-7B и Qwen3-4B последовательно превосходит базовые уровни памяти, такие как LangMem, A Mem и Mem0, по средним баллам и метрикам качества памяти.
- Инструменты краткосрочной памяти уменьшают длину подсказок примерно на 3-5% по сравнению с базовыми моделями в стиле RAG, сохраняя или улучшая производительность, демонстрируя, что изученное обобщение и фильтрация могут заменить ручные правила управления контекстом.
Switch Language
Read this article in English