DeepMind обнаружил предел эмбеддингов, который ломает RAG на больших объёмах

сентября 4, 2025 · 3 min

Ёмкость эмбеддингов и теоретические пределы

Системы Retrieval-Augmented Generation (RAG) обычно представляют запросы и документы в виде векторов фиксированной размерности. Исследование команды DeepMind показывает, что у такой архитектуры есть фундаментальный математический предел: при росте корпуса выше определённого порога один вектор на документ не может закодировать все возможные комбинации релевантности.

Ограничение вытекает из результатов в теории коммуникационной сложности и sign-rank. Даже при идеальной оптимизации векторов представительная способность d-мерного эмбеддинга ограничена. В исследовании приведены примерные потолки для надёжного поиска:

512 измерений: критическое поведение около ~500 тысяч документов
1024 измерений: предел около ~4 миллионов документов
4096 измерений: теоретический потолок примерно ~250 миллионов документов

В реальных условиях языково-ограниченные эмбеддинги часто дают сбои при значительно меньших объёмах коллекции.

Бенчмарк LIMIT выявляет потолок

Чтобы эмпирически протестировать проблему, DeepMind представил бенчмарк LIMIT (Limitations of Embeddings in Information Retrieval). LIMIT специально сконструирован, чтобы нагрузить эмбеддинги широким набором сочетаний запрашиваемой и документной релевантности. У LIMIT две конфигурации:

LIMIT full (50K документов): в этой большой настройке сильные эмбеддеры часто «коллапсируют», recall@100 часто опускается ниже 20%.
LIMIT small (46 документов): несмотря на малый размер, модели также не решают задачу надёжно. Приведённые результаты на LIMIT small:
- Promptriever Llama3 8B: 54.3% recall@2 (4096d)
- GritLM 7B: 38.4% recall@2 (4096d)
- E5-Mistral 7B: 29.5% recall@2 (4096d)
- Gemini Embed: 33.7% recall@2 (3072d)

Ни один эмбеддер не достигает полного релеванта даже с 46 документами, что подчёркивает: проблема в архитектуре одного вектора на документ.

Классические разреженные лексические методы, такие как BM25, не испытывают такого потолка. Разреженные модели фактически работают в очень высокоразмерных или неограниченных пространствах и могут отразить комбинации, недоступные плотным одно-векторным представлениям.

Подробности и эксперименты в бумах DeepMind: https://arxiv.org/pdf/2508.21038

Почему это важно для RAG

Многие текущие реализации RAG полагают, что эмбеддинги можно масштабировать по данным или модели, и это решит проблемы поиска. Анализ DeepMind показывает, что это неверно: размер эмбеддинга ограничивает способность кretrieval. Практические последствия:

Корпоративный поиск по миллионам документов может столкнуться с необратимым падением recall, если полагаться только на одно-векторные эмбеддинги.
Агентные системы с комплексными логическими запросами требуют представлений, которые один вектор не всегда способен выразить.
Задачи извлечения, где релевантность определяется динамически инструкциями, подвержены ошибкам при нехватке представительной мощности.

Стандартные бенчмарки вроде MTEB покрывают лишь узкую часть возможных отношений запрос-документ и могут не заметить этот класс ошибок.

Альтернативы одно-векторным эмбеддингам

Исследование и эксперименты указывают на архитектуры, обходящие потолок одно-векторного представления:

Cross-encoders: прямое сравнение пар запрос-документ даёт почти идеальный recall на LIMIT, но значительно дороже по задержке и ресурсам при инференсе.
Мультивекторные модели (например, ColBERT-подходы): присваивают нескольким векторам одну последовательность, повышая выразительность и способность кодировать комбинаторные шаблоны релевантности.
Разреженные модели (BM25, TF-IDF, нейронные разреженные ранжировщики): лучше масштабируются в высокоразмерных пространствах, хотя уступают плотным моделям в семантической обобщаемости.

Ключевая идея: для надёжного поиска в крупных коллекциях требуются архитектурные изменения, а не просто увеличение размеров эмбеддеров или объёмов обучения.

Коротко

Плотные одно-векторные эмбеддинги ограничены математическими пределами, завязанными на размерность вектора. LIMIT демонстрирует эти ограничения как на больших коллекциях, так и на маленьких тщательно подобранных задачах. Для надёжного retrieval в продакшн-сценариях стоит рассматривать мультивекторные, разреженные или гибридные подходы.