Объединение долгосрочной и краткосрочной памяти в LLM-агентах

Проектирование автономного управления памятью в LLM

Как разработать LLM-агента, который решает самостоятельно, что хранить в долгосрочной памяти, что удерживать в краткосрочном контексте и что выбрасывать без предварительно настроенных эвристик или дополнительных контроллеров? Может ли единая политика научиться управлять обоими типами памяти через одно и то же действие в пространстве генерации текста?

Исследователи из Alibaba Group и Университета Уханя представляют Agentic Memory, или AgeMem, который позволяет агентам больших языковых моделей обучаться управлению как долгосрочной, так и краткосрочной памятью в рамках одной политики. Вместо того чтобы полагаться на написанные от руки правила или внешние контроллеры, агент самостоятельно решает, когда сохранять, извлекать, обобщать и забывать, используя интегрированные инструменты памяти в рамках действия модели.

Текущие проблемы управления памятью в LLM

Почему текущие LLM-агенты испытывают трудности с памятью

Большинство рамок агентов рассматривают память как две слабо связанные системы. Долгосрочная память хранит профили пользователей, информацию о задачах и предыдущие взаимодействия между сессиями, тогда как краткосрочная память охватывает текущее контекстное окно, содержащее активный диалог и извлеченные документы.

Существующие системы строят эти две составляющие изолированно. Долгосрочная память управляется через внешние хранилища, такие как векторные базы данных, с использованием простых триггеров добавления и извлечения, в то время как краткосрочная память обрабатывается с помощью генерации, дополненной извлечением или расписанием обобщений. Это разделение создает несколько проблем:

Долгосрочная и краткосрочная память оптимизируются независимо, без обучения их взаимодействию от конца до конца.
Эвристики управляют тем, когда записывать в память и когда обобщать. Эти правила могут быть нестабильными, пропуская редкие, но важные события.
Добавление внешних контроллеров или специализированных моделей увеличивает и стоимость, и сложность системы.

AgeMem устраняет внешний контроллер, интегрируя операции памяти непосредственно в политику агента.

Инструменты памяти в пространстве действий агента

Память как инструменты

В AgeMem операции памяти представлены как инструменты в пространстве действий агента. На каждом шаге модель может выдавать либо обычные текстовые токены, либо вызов инструмента, с шестью определенными инструментами:

Для долгосрочной памяти:

ADD: сохраняет новый элемент памяти с содержимым и метаданными.
UPDATE: изменяет существующую запись памяти.
DELETE: удаляет устаревшие или недействительные элементы.

Для краткосрочной памяти:

RETRIEVE: выполняет семантический поиск по долгосрочной памяти, вводя соответствующие элементы в текущий контекст.
SUMMARY: сжимает отрезки диалога в более короткие обобщения.
FILTER: удаляет сегменты контекста, которые не полезны для будущего рассуждения.

Протокол взаимодействия принимает структурированный формат. Каждый шаг начинается с блока <think>, где модель оценивает свои возможности, а затем выдает либо блок <tool_call> с JSON-списком вызовов инструментов, либо блок <answer> с ответом для пользователя. Таким образом, операции с памятью становятся основными решениями, а не побочными эфектами.

Обучение с подкреплением для единого управления памятью

Трехступенчатое обучение с подкреплением

AgeMem обучается с использованием обучения с подкреплением, которое связывает поведение долгосрочной и краткосрочной памяти. Состояние в момент времени t включает текущий разговорный контекст, хранилище долгосрочной памяти и спецификацию задачи. Политика решает, действовать ли на токен или вызвать инструмент. Траектория обучения для каждого примера проходит через три стадии:

Стадия 1: Конструирование долгосрочной памяти
Агент взаимодействует в неформальной обстановке, собирая информацию, которая позже станет актуальной, используя ADD, UPDATE и DELETE для построения и поддержания долгосрочной памяти, при этом краткосрочный контекст естественным образом расширяется во время этой фазы.
Стадия 2: Управление краткосрочной памятью с отвлекающими факторами
Краткосрочный контекст сбрасывается, а долгосрочная память остается нетронутой. Агент сталкивается с отвлекающим контентом, который связан, но не является необходимым, и управляет краткосрочной памятью, используя SUMMARY и FILTER, чтобы сохранить полезные мысли и устранить шум.
Стадия 3: Интегрированное рассуждение
При поступлении последнего запроса агент извлекает информацию из долгосрочной памяти, используя RETRIEVE, управляет краткосрочным контекстом и формулирует ответ.

Ключевым аспектом является то, что долгосрочная память сохраняется на протяжении всех стадий, тогда как краткосрочная память очищается между первой и второй стадиями, принуждая модель полагаться на извлечение, а не на остаточный контекст, тем самым выявляя реальные зависимости на длинной дистанции.

Проектирование вознаграждений и применение GRPO

AgeMem использует варьирование GRPO с шаговой выборкой. Для каждой задачи система отбирает множество траекторий, формируя группу. За каждую траекторию вычисляется терминальное вознаграждение, а затем нормализуется в группе для получения сигнала преимущества. Это преимущество передается всем шагам в траектории, что позволяет обучать промежуточные выборы инструментов на основе конечных результатов.

Общая награда состоит из трех основных компонентов:

Награда за задачу, оценивающая качество ответа по шкале от 0 до 1 с использованием оценщика LLM.
Награда за контекст, оценка качества операций краткосрочной памяти, включая сжатие, раннее обобщение и сохранение содержимого, относящегося к запросу.
Награда за память, оценивающая качество долгосрочной памяти, включая долю качественных хранимых элементов, полезность операций поддержания и актуальность извлеченных элементов по отношению к запросу.

Единые веса для этих трех компонентов обеспечивают равный вклад в сигнал обучения, и к этому добавляется штраф за превышение максимальной длины диалога или переполнение контекста.

Экспериментальная установка и ключевые находки

Экспериментальная установка и основные результаты

Команда исследователей проводит дополнительную настройку AgeMem на тренировочном наборе HotpotQA и оценивает его по пяти эталонам:

ALFWorld для текстовых основанных задач.
SciWorld для научных тем.
BabyAI для управления инструкциями.
Задачи PDDL для планирования.
HotpotQA для многослойного ответов на вопросы.

Метрики включают уровень успеха для ALFWorld, SciWorld и BabyAI, скорость прогресса для задач PDDL, а также оценку LLM для HotpotQA. Также они определяют метрику качества памяти, используя оценщика LLM, который сравнивает сохраненные воспоминания с поддерживающими фактами HotpotQA.

Базовые линии включают LangMem, A Mem, Mem0, Mem0g и агента без памяти. Основные модели - это Qwen2.5-7B-Instruct и Qwen3-4B-Instruct.

На Qwen2.5-7B-Instruct AgeMem достигает среднего балла 41.96 по пяти эталонам, в то время как лучшая базовая модель Mem0 достигает 37.14. В тестах с Qwen3-4B-Instruct AgeMem достигает 54.31, по сравнению с 45.74 у лучшей модели A Mem.

Качество памяти также значительно улучшается: AgeMem достигает 0.533 на HotpotQA с Qwen2.5-7B и 0.605 с Qwen3-4B, что превышает все базовые значения.

Инструменты краткосрочной памяти способствуют снижению длины подсказок при сохранении производительности, показывая сокращение на 3-5% токенов на каждый запрос по сравнению с базовыми линиями в стиле RAG.

Исследования абляции подтверждают, что каждый компонент имеет важное значение. Добавление только инструментов долгосрочной памяти к базовой модели без памяти уже дает заметные улучшения. Применение обучения с подкреплением к этим инструментам еще больше повышает результаты. Полная система с как долгосрочными, так и краткосрочными инструментами вместе с RL показывает до 21.7% улучшение по сравнению с базовой моделью без памяти на SciWorld.

Импликации для проектирования LLM-агентов

AgeMem предлагает шаблон проектирования для будущих агентных систем. Память должна обрабатываться как часть изучаемой политики, а не как две внешние подсистемы. Превращая хранение, извлечение, обобщение и фильтрацию в явные инструменты и обучая их совместно с генерацией языка, агент учится, когда запоминать, когда забывать и как эффективно управлять контекстом на протяжении долгого времени.

Ключевые выводы

AgeMem преобразует операции памяти в явные инструменты, позволяя той же политике, которая генерирует текст, диктовать, когда выполнять ADD, UPDATE, DELETE, RETRIEVE, SUMMARY и FILTER память.
Долгосрочная и краткосрочная память обучаются совместно через трехступенчатую RL-систему, где долгосрочная память сохраняется на всех этапах, в то время как краткосрочный контекст сбрасывается для поощрения основанного на извлечении рассуждения.
Функция вознаграждения объединяет точность задач, качество управления контекстом и качество долгосрочной памяти с равными весами, плюс штрафы за переполнение контекста и чрезмерную длину диалога.
В результате тестов на ALFWorld, SciWorld, BabyAI, задачах PDDL и HotpotQA AgeMem на Qwen2.5-7B и Qwen3-4B последовательно превосходит базовые уровни памяти, такие как LangMem, A Mem и Mem0, по средним баллам и метрикам качества памяти.
Инструменты краткосрочной памяти уменьшают длину подсказок примерно на 3-5% по сравнению с базовыми моделями в стиле RAG, сохраняя или улучшая производительность, демонстрируя, что изученное обобщение и фильтрация могут заменить ручные правила управления контекстом.

Объединение долгосрочной и краткосрочной памяти в LLM-агентах

Проектирование автономного управления памятью в LLM

Текущие проблемы управления памятью в LLM

Почему текущие LLM-агенты испытывают трудности с памятью

Инструменты памяти в пространстве действий агента

Память как инструменты

Обучение с подкреплением для единого управления памятью

Трехступенчатое обучение с подкреплением

Проектирование вознаграждений и применение GRPO

Экспериментальная установка и ключевые находки

Экспериментальная установка и основные результаты

Импликации для проектирования LLM-агентов

Импликации для проектирования LLM-агентов

Ключевые выводы

Switch Language