Memory-R1: как обучение с подкреплением прокачивает память LLM

Почему LLM испытывают сложности с памятью

Современные большие языковые модели решают множество задач, но по сути они статeless: каждый запрос обрабатывается без накопленной памяти о предыдущих взаимодействиях. Ограниченные окна контекста мешают долгосрочному рассуждению и поддержке многосессионных задач. Подходы вроде RAG добавляют прошлые записи в подсказку, но без умного фильтра они часто захламляют модель шумихой и нерелевантной информацией.

Что такое Memory-R1

Memory-R1 — фреймворк, который обучает агентов LLM активно управлять внешней памятью с помощью обучения с подкреплением. Вместо ручных эвристик система использует вознаграждение за итоговую корректность ответа, так агенты учатся политике сохранения, обновления и удаления информации, которая улучшает конечный результат.

Два RL-адаптированных агента

Memory-R1 опирается на два взаимодополняющих компонента:

Оба агента обучаются методами RL, такими как PPO или GRPO, и получают награду только за качество финального ответа, что исключает необходимость разметки отдельных операций с памятью.

Memory Manager: обучение редактированию знаний

Memory Manager учится добавлять новые факты, обновлять существующие, удалять устаревшие или противоречивые записи и оставлять память неизменной, если изменений не требуется. Обучение связывает действия менеджера с качеством ответов Answer Agent: если редактирование улучшает ответ, менеджер получает положительное вознаграждение. Это побуждает консолидировать знания, а не фрагментировать их. Например, при упоминании сначала Buddy, а потом Scout менеджер объединит факт и сохранит, что пользователь усыновил двух собак.

Answer Agent: выборочное рассуждение

Answer Agent не подсовывает модели все 60 найденных записей подряд. Он фильтрует кандидатов до компактного, релевантного набора и рассуждает уже по этому контексту. Точное совпадение ответа с эталоном служит наградой и учит агента устранять шум и фокусироваться на полезной информации.

Эффективность данных и бенчмарки

Memory-R1 показывает высокую эффективность: сильные результаты достигаются всего на 152 парах вопрос-ответ. Бенчмарк LOCOMO с длинными многотуровыми диалогами и разнообразными типами вопросов подходит для тестирования управления длительной памятью.

Результаты экспериментов

Memory-R1 тестировали на LLaMA-3.1-8B-Instruct и Qwen-2.5-7B-Instruct против сильных базовых методов. По метрикам F1, BLEU-1 и оценке LLM-as-a-Judge Memory-R1 с GRPO показал самые высокие результаты и заметные улучшения по всем типам вопросов и архитектурам.

Почему это важно

Формулировка управления памятью и отсева контекста как задач RL позволяет:

Memory-R1 приближает системы к агентам, которые не просто беседуют, но запоминают, обучаются и рассуждают поверх долгосрочных взаимодействий, предлагая пользователям более связный и полезный опыт.