Какая память лучше для LLM-агентов: вектор, граф или логи событий?
'Обзор шести паттернов памяти для LLM-агентов в трёх семействам: вектор, граф и логи/эпизоды, с разбором задержек, успешности поисков и типичных отказов.'
Высшие уровни и компромиссы
Дизайн памяти решает многое в многосоставных агентных системах. Когда агенты вызывают инструменты, координируются между сессиями и выполняют долгие рабочие процессы, выбор модели памяти задает скорость доступа, надежность и типы ошибок. Ниже сравниваются шесть распространенных паттернов памяти, сгруппированных в три семейства, с описанием профиля задержки, поведения hit rate и возможных отказов.
Векторные системы памяти
Простой Vector RAG
Что это
Простой vector RAG кодирует фрагменты текста в вектора и хранит их в ANN-индексе (FAISS, HNSW и т.д.). При запросе вектор запроса сравнивается с индексом, возвращаются top-k соседей и при необходимости проводится перенумерация.
Профиль задержки
ANN-индексы оптимизированы для сублинейного масштабирования: структуры вроде HNSW демонстрируют почти логарифмический рост задержки при фиксированных требованиях к recall. На настроенном узле поиск по миллионам элементов занимает десятки миллисекунд плюс расходы на rerank и внимание LLM.
Поведение hit rate
Vector RAG хорошо работает для локальных запросов и когда нужная информация содержится в небольшом наборе фрагментов. Плохо справляется с временными запросами, кросс-сессионным выводом и многопрыжковыми задачами.
Режимы отказов в мультиагентном планировании
- Потеря ограничений: top-k не возвращает критическое правило.
- Семантическое дрейфование: похожие соседи не содержат ключевых идентификаторов.
- Разбавление контекста: много частично релевантных фрагментов заглушают важные детали.
Когда использовать
Для одноагентных или короткоживущих задач, Q&A по небольшим и средним корпусам и как базовый семантический индекс.
Многоуровневая векторная память (MemGPT-style)
Что это
Модель с активным рабочим контекстом и большим архивом. Модель или контроллер управляет страницированием: что держать в активном контексте, что архивировать.
Архитектура и задержки
Доступ к активному контексту дешёв, доступы к архиву похожи на обычный vector RAG, но поиск часто сужается по задаче, сессии или топику. Кэширование горячих записей снижает расходы на страницы.
Поведение hit rate и режимы отказов
Часто запрашиваемая информация остаётся в рабочем наборе, повышая hit rate. Основная новая ошибка — политика страницирования: неверная эвикция приводит к латентной потере ограничений. Также возможна дивергенция локальных представлений у разных агентов.
Когда полезно
Для длинных диалогов и рабочих процессов, где неконтролируемый рост контекста неприемлем, и где можно прокачать политику страницирования.
Графовые системы памяти
Темпоральный граф знаний (Zep / Graphiti)
Что это
Темпоральный KG моделирует сущности, события и отношения с временными метками и интервалами валидности. Он сочетает историю разговоров и структурированные данные для временных и кросс-сессионных выводов.
Задержки и hit rate
Запросы по графу обычно ограничены локальными обходами, поэтому задержка растет с размером соседства, а не всего графа. Темпоральные и entity-ориентированные запросы выигрывают, но отсутствие ребер или неверные метки времени снижают recall.
Режимы отказов
Устаревшие ребра, дрейф схемы и разделение доступа в мультиарендных системах ведут к работе планировщиков на неверной или частичной модели мира.
Когда полезно
Для координации агентов по общим сущностям, долгоживущих задач и систем с потоковой загрузкой в KG.
Knowledge-Graph RAG (GraphRAG)
Что это
GraphRAG строит KG по корпусу, выполняет иерархическое детектирование сообществ и хранит резюме по сообществам. При запросе выявляются релевантные сообщества, и их резюме даются в LLM.
Задержка, hit rate и режимы отказов
Индексация тяжелее, но время запроса может быть конкурентным: извлекаются небольшие резюме. Эффективен при многодокументных, многопрыжковых задачах, но зависит от качества извлечения сущностей и рискует переобобщать детали и усложнять трассируемость.
Когда полезно
Для больших баз знаний и анализа причинно-следственных цепочек, когда можно позволить себе затраты на предварительную индексацию.
Системы событий и журналов исполнения
Журналы исполнения и контрольные точки (ALAS, LangGraph)
Что это
Журналы и контрольные точки фиксируют действия и состояние как авторитетный источник: вызовы инструментов, входы, выходы и решения по контролю выполнения. Они поддерживают воспроизведение, локализованный ремонт и аудит.
Задержка и hit rate
Чтение хвоста лога или недавней контрольной точки дешево; глобальная аналитика требует индексирования. Для вопроса «что произошло» hit rate близок к 100% при корректной инструментализации и хранении.
Режимы отказов
Раздувание логов, неполная инструментализация и небезопасное воспроизведение побочных эффектов — основные риски. Транзакционные семантики, ключи идемпотентности и локализованный ремонт помогают их устранять.
Когда необходимы
Когда важна наблюдаемость, аудит и точное воспроизведение, а также автоматический ремонт и частичное перепланирование.
Эпизодическая долговременная память
Что это
Эпизоды хранят цельные сегменты работы: описание задачи, последовательность действий (ссылки на логи), результаты и метрики. Эпизоды индексируются метаданными и эмбеддингами и могут быть дистиллированы в паттерны.
Задержка и hit rate
Двухэтапный поиск: сначала выбирают релевантные эпизоды, затем ищут внутри них. Это масштабируется лучше, чем плоский поиск по событиям и улучшает recall для задач с длинным горизонтом. Ошибки возникают из-за неверных границ эпизодов или плохой консолидации.
Когда полезно
Для долгоживущих агентов и рабочих процессов, где похожие прошлые случаи важнее отдельных фактов.
Ключевые выводы
Память — это системная проблема. Векторные хранилища быстры, но слабы в структуре и времени. Графы закрывают временные и реляционные пробелы, но требуют схемы и поддержания. Логи исполнения дают авторитетный источник действий и поддерживают ремонт и воспроизведение. На практике надежные архитектуры комбинируют вектор, граф и логи/эпизоды с четкими ролями для каждого слоя.
Switch Language
Read this article in English