Memory-R1: как обучение с подкреплением прокачивает память LLM
Почему LLM испытывают сложности с памятью
Современные большие языковые модели решают множество задач, но по сути они статeless: каждый запрос обрабатывается без накопленной памяти о предыдущих взаимодействиях. Ограниченные окна контекста мешают долгосрочному рассуждению и поддержке многосессионных задач. Подходы вроде RAG добавляют прошлые записи в подсказку, но без умного фильтра они часто захламляют модель шумихой и нерелевантной информацией.
Что такое Memory-R1
Memory-R1 — фреймворк, который обучает агентов LLM активно управлять внешней памятью с помощью обучения с подкреплением. Вместо ручных эвристик система использует вознаграждение за итоговую корректность ответа, так агенты учатся политике сохранения, обновления и удаления информации, которая улучшает конечный результат.
Два RL-адаптированных агента
Memory-R1 опирается на два взаимодополняющих компонента:
Memory Manager: после каждого реплики извлекает ключевые факты и выбирает операцию над внешней базой памяти: ADD, UPDATE, DELETE или NOOP. Менеджер ищет связанные записи и решает, как добавить, объединить или удалить информацию, чтобы база оставалась согласованной и развивалась.
Answer Agent: для каждого вопроса извлекает до 60 кандидатных записей памяти, дистиллирует их до релевантного поднабора и уже на этом очищенном контексте генерирует ответ.
Оба агента обучаются методами RL, такими как PPO или GRPO, и получают награду только за качество финального ответа, что исключает необходимость разметки отдельных операций с памятью.
Memory Manager: обучение редактированию знаний
Memory Manager учится добавлять новые факты, обновлять существующие, удалять устаревшие или противоречивые записи и оставлять память неизменной, если изменений не требуется. Обучение связывает действия менеджера с качеством ответов Answer Agent: если редактирование улучшает ответ, менеджер получает положительное вознаграждение. Это побуждает консолидировать знания, а не фрагментировать их. Например, при упоминании сначала Buddy, а потом Scout менеджер объединит факт и сохранит, что пользователь усыновил двух собак.
Answer Agent: выборочное рассуждение
Answer Agent не подсовывает модели все 60 найденных записей подряд. Он фильтрует кандидатов до компактного, релевантного набора и рассуждает уже по этому контексту. Точное совпадение ответа с эталоном служит наградой и учит агента устранять шум и фокусироваться на полезной информации.
Эффективность данных и бенчмарки
Memory-R1 показывает высокую эффективность: сильные результаты достигаются всего на 152 парах вопрос-ответ. Бенчмарк LOCOMO с длинными многотуровыми диалогами и разнообразными типами вопросов подходит для тестирования управления длительной памятью.
Результаты экспериментов
Memory-R1 тестировали на LLaMA-3.1-8B-Instruct и Qwen-2.5-7B-Instruct против сильных базовых методов. По метрикам F1, BLEU-1 и оценке LLM-as-a-Judge Memory-R1 с GRPO показал самые высокие результаты и заметные улучшения по всем типам вопросов и архитектурам.
Почему это важно
Формулировка управления памятью и отсева контекста как задач RL позволяет:
- Автоматически консолидировать развивающиеся знания вместо их фрагментации.
- Отсевать шум при ответе, повышая точность и качество рассуждений.
- Учиться с минимальной разметкой и масштабироваться на реальные долгие диалоги.
Memory-R1 приближает системы к агентам, которые не просто беседуют, но запоминают, обучаются и рассуждают поверх долгосрочных взаимодействий, предлагая пользователям более связный и полезный опыт.