Какая память лучше для LLM-агентов: вектор, граф или логи событий?

Высшие уровни и компромиссы

Дизайн памяти решает многое в многосоставных агентных системах. Когда агенты вызывают инструменты, координируются между сессиями и выполняют долгие рабочие процессы, выбор модели памяти задает скорость доступа, надежность и типы ошибок. Ниже сравниваются шесть распространенных паттернов памяти, сгруппированных в три семейства, с описанием профиля задержки, поведения hit rate и возможных отказов.

Векторные системы памяти

Простой Vector RAG

Что это

Простой vector RAG кодирует фрагменты текста в вектора и хранит их в ANN-индексе (FAISS, HNSW и т.д.). При запросе вектор запроса сравнивается с индексом, возвращаются top-k соседей и при необходимости проводится перенумерация.

Профиль задержки

ANN-индексы оптимизированы для сублинейного масштабирования: структуры вроде HNSW демонстрируют почти логарифмический рост задержки при фиксированных требованиях к recall. На настроенном узле поиск по миллионам элементов занимает десятки миллисекунд плюс расходы на rerank и внимание LLM.

Поведение hit rate

Vector RAG хорошо работает для локальных запросов и когда нужная информация содержится в небольшом наборе фрагментов. Плохо справляется с временными запросами, кросс-сессионным выводом и многопрыжковыми задачами.

Режимы отказов в мультиагентном планировании

Потеря ограничений: top-k не возвращает критическое правило.
Семантическое дрейфование: похожие соседи не содержат ключевых идентификаторов.
Разбавление контекста: много частично релевантных фрагментов заглушают важные детали.

Когда использовать

Для одноагентных или короткоживущих задач, Q&A по небольшим и средним корпусам и как базовый семантический индекс.

Многоуровневая векторная память (MemGPT-style)

Что это

Модель с активным рабочим контекстом и большим архивом. Модель или контроллер управляет страницированием: что держать в активном контексте, что архивировать.

Архитектура и задержки

Доступ к активному контексту дешёв, доступы к архиву похожи на обычный vector RAG, но поиск часто сужается по задаче, сессии или топику. Кэширование горячих записей снижает расходы на страницы.

Поведение hit rate и режимы отказов

Часто запрашиваемая информация остаётся в рабочем наборе, повышая hit rate. Основная новая ошибка — политика страницирования: неверная эвикция приводит к латентной потере ограничений. Также возможна дивергенция локальных представлений у разных агентов.

Когда полезно

Для длинных диалогов и рабочих процессов, где неконтролируемый рост контекста неприемлем, и где можно прокачать политику страницирования.

Графовые системы памяти

Темпоральный граф знаний (Zep / Graphiti)

Что это

Темпоральный KG моделирует сущности, события и отношения с временными метками и интервалами валидности. Он сочетает историю разговоров и структурированные данные для временных и кросс-сессионных выводов.

Задержки и hit rate

Запросы по графу обычно ограничены локальными обходами, поэтому задержка растет с размером соседства, а не всего графа. Темпоральные и entity-ориентированные запросы выигрывают, но отсутствие ребер или неверные метки времени снижают recall.

Режимы отказов

Устаревшие ребра, дрейф схемы и разделение доступа в мультиарендных системах ведут к работе планировщиков на неверной или частичной модели мира.

Когда полезно

Для координации агентов по общим сущностям, долгоживущих задач и систем с потоковой загрузкой в KG.

Knowledge-Graph RAG (GraphRAG)

Что это

GraphRAG строит KG по корпусу, выполняет иерархическое детектирование сообществ и хранит резюме по сообществам. При запросе выявляются релевантные сообщества, и их резюме даются в LLM.

Задержка, hit rate и режимы отказов

Индексация тяжелее, но время запроса может быть конкурентным: извлекаются небольшие резюме. Эффективен при многодокументных, многопрыжковых задачах, но зависит от качества извлечения сущностей и рискует переобобщать детали и усложнять трассируемость.

Когда полезно

Для больших баз знаний и анализа причинно-следственных цепочек, когда можно позволить себе затраты на предварительную индексацию.

Системы событий и журналов исполнения

Журналы исполнения и контрольные точки (ALAS, LangGraph)

Что это

Журналы и контрольные точки фиксируют действия и состояние как авторитетный источник: вызовы инструментов, входы, выходы и решения по контролю выполнения. Они поддерживают воспроизведение, локализованный ремонт и аудит.

Задержка и hit rate

Чтение хвоста лога или недавней контрольной точки дешево; глобальная аналитика требует индексирования. Для вопроса «что произошло» hit rate близок к 100% при корректной инструментализации и хранении.

Режимы отказов

Раздувание логов, неполная инструментализация и небезопасное воспроизведение побочных эффектов — основные риски. Транзакционные семантики, ключи идемпотентности и локализованный ремонт помогают их устранять.

Когда необходимы

Когда важна наблюдаемость, аудит и точное воспроизведение, а также автоматический ремонт и частичное перепланирование.

Эпизодическая долговременная память

Что это

Эпизоды хранят цельные сегменты работы: описание задачи, последовательность действий (ссылки на логи), результаты и метрики. Эпизоды индексируются метаданными и эмбеддингами и могут быть дистиллированы в паттерны.

Задержка и hit rate

Двухэтапный поиск: сначала выбирают релевантные эпизоды, затем ищут внутри них. Это масштабируется лучше, чем плоский поиск по событиям и улучшает recall для задач с длинным горизонтом. Ошибки возникают из-за неверных границ эпизодов или плохой консолидации.

Когда полезно

Для долгоживущих агентов и рабочих процессов, где похожие прошлые случаи важнее отдельных фактов.

Ключевые выводы

Память — это системная проблема. Векторные хранилища быстры, но слабы в структуре и времени. Графы закрывают временные и реляционные пробелы, но требуют схемы и поддержания. Логи исполнения дают авторитетный источник действий и поддерживают ремонт и воспроизведение. На практике надежные архитектуры комбинируют вектор, граф и логи/эпизоды с четкими ролями для каждого слоя.

Какая память лучше для LLM-агентов: вектор, граф или логи событий?

Switch Language