MEM1: революция в экономии памяти для языковых агентов с долгосрочной памятью

Проблемы в обработке многошаговых диалогов

Современные языковые агенты должны управлять многошаговыми взаимодействиями, извлекая и обновляя релевантную информацию по мере развития задачи. Существующие системы часто просто добавляют всю историю взаимодействий к каждому запросу, что приводит к избыточному использованию памяти, замедлению работы и ухудшению рассуждений на более длинных неожиданных данных. Примеры из реальной жизни, такие как исследовательские или торговые ассистенты, показывают, что последующие вопросы зависят от предыдущего контекста, однако постоянный рост объема запросов нагружает ресурсы системы.

Ограничения существующих подходов к памяти

Многие большие языковые модели (LLM) научились решать сложные многошаговые задачи, например веб-серфинг и исследование данных, с помощью таких фреймворков, как ReAct, которые объединяют рассуждения и действия. Однако управление памятью остается проблемой, поскольку традиционные методы добавляют всю предыдущую информацию в каждый запрос, что неэффективно. Внешние инструменты, такие как ретриверы и суммировщики, помогают, но часто работают отдельно от процесса рассуждений агента, усложняя интеграцию.

Представляем MEM1: фреймворк обучения с подкреплением

Исследователи из MIT, NUS, SMART и Университета Ёнсе разработали MEM1 — фреймворк на основе обучения с подкреплением, который позволяет языковым агентам эффективно справляться со сложными многошаговыми задачами, поддерживая постоянное использование памяти. Вместо хранения полной истории взаимодействий MEM1 сохраняет компактное внутреннее состояние, обновляя его на каждом шаге путем объединения новой информации и удаления нерелевантных данных. Такой объединенный подход к рассуждениям и памяти повышает эффективность и производительность без необходимости дополнительных модулей.

Как MEM1 имитирует человеческое решение задач

MEM1 сочетает очистку памяти и итеративное рассуждение для решения сложных задач. На каждом шаге агент обрабатывает новые данные, интегрирует их с уже имеющимися знаниями, обновляя консолидированное состояние, и удаляет ненужный контекст. Это похоже на человеческий когнитивный процесс — фокусироваться на ключевой информации и отбрасывать остальное. Обучение с подкреплением помогает агенту сохранять только релевантные данные, используя маскирование для точных обновлений политики. Для оценки долгосрочного рассуждения были созданы многозадачные QA-тесты на базе существующих датасетов.

Результаты тестирования MEM1

MEM1 был протестирован на задачах долгосрочного вопросно-ответного взаимодействия и навигации, обученный на базовой модели Qwen2.5-7B с помощью обучения с подкреплением. Его проверяли в средах с генерацией ответов с ретривалом и веб-навигацией, сравнивая с разными базовыми моделями. Результаты показали, что MEM1 превзошел конкурентов по точности и эффективности, сохраняя высокую производительность с ростом сложности задач. Он использовал меньше токенов, отвечал быстрее и лучше масштабировался. Несмотря на меньший размер, MEM1 превосходил более крупные модели, включая Qwen2.5-14B-Instruct и GPT-4o в сложных сценариях.

Перспективы развития памяти в языковых моделях

MEM1 демонстрирует, как обучение с подкреплением может эффективно консолидировать память языковых агентов. В отличие от классических методов, сохраняющих всю историю и создающих нагрузку, MEM1 поддерживает компактное состояние и выборочное хранение, снижая потребление ресурсов и ускоряя работу. Однако текущая версия зависит от четких сигналов вознаграждения, которые редко доступны в реальных задачах. В будущем планируется адаптация MEM1 для открытых задач с неопределенными или задержанными наградами, расширяя область применения.