M3-Agent: мультимодальный агент с долгосрочной памятью и улучшенным рассуждением

Почему нужна долговременная память для мультимодальных агентов

Агенты, работающие с реальным миром, должны уметь не только обрабатывать отдельные входы. Чтобы разумно действовать в течение дней и недель, им нужно непрерывно наблюдать аудиовизуальные потоки, сохранять опыт и опираться на накопленные знания при принятии решений. Простое хранение эпизодов с сырыми наблюдениями недостаточно для долгосрочной согласованности. Лучше, если агент формирует богатые, ориентированные на сущности и семантику воспоминания, похожие на то, как люди усваивают факты, идентичности и связи.

Подход M3-Agent

M3-Agent представляет собой фреймворк, дающий мультимодальным агентам и эпизодическую, и семантическую долгосрочную память. Агент обрабатывает поступающие в реальном времени видео и аудио куски, записывая записи в внешнюю базу долгосрочной памяти, организованную как граф памяти. Каждая нода графа содержит уникальный идентификатор, информацию о модальности, сырое содержимое, эмбеддинги и метаданные. Организация памяти вокруг сущностей и мультимодальных сигналов позволяет строить целостную и развивающуюся модель окружения вместо набора разрозненных наблюдений.

Потоки запоминания и управления

Фреймворк работает через два параллельных процесса: запоминание и управление. Во время запоминания агент создает эпизодические записи для сырых входов и извлекает более высокоуровневые семантические элементы, такие как личности, отношения и абстрактные факты. Для управления агент ведет многошаговое рассуждение: он выполняет поиск по графу памяти в до H раундов, чтобы получить релевантные элементы и использовать их для планирования или ответов. Для оптимизации системы применяется обучение с подкреплением, при этом для задач запоминания и управления обучаются отдельные модели, чтобы достичь оптимальной производительности.

Оценка и результаты

Для измерения понимания долгих видео и согласованности памяти была разработана M3-Bench. M3-Agent и эталонные методы тестировали на M3-Bench-robot, M3-Bench-web и VideoMME-long. Ключевые результаты:

На M3-Bench-robot M3-Agent показывает прирост точности на 6.3% по сравнению с сильнейшим бенчмарком MA-LLM.
На M3-Bench-web и VideoMME-long M3-Agent опережает GeminiGPT4o-Hybrid на 7.7% и 5.3% соответственно.
По метрикам понимания человеком и кроссмодального рассуждения M3-Agent превосходит MA-LMM на 4.2% и 8.5% на M3-Bench-robot, а на M3-Bench-web демонстрирует приросты 15.5% и 6.7% по сравнению с Gemini-GPT4o-Hybrid.

Эти результаты подтверждают способность M3-Agent поддерживать согласованность персонажей, улучшать поведение, понятное человеку, и эффективно интегрировать мультимодальную информацию.

Чем M3-Agent отличается от предыдущих попыток

Ранее часто просто добавляли в память сырые траектории, краткие резюме, латентные представления или структурированные описания. Методы, ориентированные на видео, пытались расширить контекстные окна или сжимать визуальные токены, но такие подходы не масштабируются для длинных потоков. Методы, сохраняющие визуальные признаки, масштабируются лучше, но теряют долгосрочную согласованность. Языковые описания, как в Socratic Models, масштабируемы, но испытывают сложности с отслеживанием развивающихся сущностей и событий. M3-Agent объединяет мультимодальные представления, ориентированную на сущности структуру памяти и разделение моделей для запоминания и управления.

Ограничения и дальнейшие направления

Кейс-стади в работе указывают на оставшиеся проблемы: улучшение механизмов внимания для семантической памяти, создание более эффективных визуальных систем памяти и уточнение стратегий обновления памяти для меняющихся сущностей. Эти направления помогут приблизить мультимодальных агентов к человеческой способности к пониманию и непрерывности.

Ресурсы

Авторы публикуют статью и страницу GitHub с учебными материалами, кодом и ноутбуками для воспроизведения и расширения M3-Agent. Фреймворк и бенчмарки M3-Bench создают основу для более последовательных и память-ориентированных мультимодальных агентов в практических приложениях.