REFRAG от Meta: 16× больший контекст и до 31× быстрее декодирование RAG
Meta Superintelligence Labs вместе с коллегами представили REFRAG, фреймворк для декодирования, который значительно повышает эффективность retrieval-augmented generation за счет сжатия извлеченных фрагментов в компактные встраивания. Подход позволяет моделям работать с куда более длинными контекстами и одновременно резко снижать задержку вывода.
Почему длинный контекст дорого обходится моделям
Механизм внимания в больших языковых моделях растет примерно квадратично по времени и памяти от длины входа. Если удвоить количество токенов, вычисления и потребление памяти могут увеличиться примерно в четыре раза. Это делает применение длинного контекста дорогостоящим и часто непрактичным в продакшене. В RAG-настройках многие извлеченные фрагменты приносят мало пользы, но модель все равно вынуждена обрабатывать их с полной квадратичной стоимостью.
Как REFRAG сжимает извлеченные фрагменты
REFRAG добавляет легковесный энкодер, который разбивает документы на фиксированные чанки (например, по 16 токенов) и кодирует каждый чанок в плотное встраивание. Вместо тысячи сырых токенов декодеру передается намного более короткая последовательность встраиваний. Это дает сокращение длины последовательности примерно в 16 раз без изменений в архитектуре основной LLM. Подробности и эксперименты доступны в статье на arXiv: https://arxiv.org/pdf/2509.01092
Как достигается ускорение
Укорочение входа декодера уменьшает квадратичные вычисления внимания и сокращает размер кеша ключей и значений. В экспериментах наблюдали ускорение времени до первого токена (TTFT) примерно в 16.53× при k=16 и до 30.85× при k=32, что значительно выше достижений предыдущих методов, таких как CEPE. Пропускная способность также увеличивается — до 6.78× по сравнению с базовыми LLaMA.
Сохранение точности через селективное расширение
Политика обучения с подкреплением определяет, какие чанки являются наиболее информативными и могут обходить сжатие, попадая в декодер как сырые токены. Такая селективность позволяет не терять критические детали — например, точные числа или редкие сущности. По нескольким бенчмаркам REFRAG сохранил или улучшил перплексию по сравнению с CEPE, работая при значительно меньшей задержке.
Результаты экспериментов
REFRAG был предварительно обучен на 20 миллиардах токенов из корпуса SlimPajama и протестирован на наборах для длинных текстов, включая Book, Arxiv, PG19 и ProofPile. На RAG-бенчмарках, задачах многотуровых диалогов и суммаризации длинных документов REFRAG показал:
- Расширение контекста в 16 раз относительно стандартного окна LLaMA-2 на 4k токенов.
- Примерно 9.3% улучшения перплексии по сравнению с CEPE на четырех датасетах.
- Лучшую точность в условиях слабого ретривера, когда много нерелевантных фрагментов, за счет возможности обработать больше фрагментов в рамках одного бюджета латентности.
Авторы планируют выложить код на GitHub по адресу facebookresearch/refrag.
Практическое значение
Сжатие извлеченных фрагментов в компактные встраивания и селективное расширение наиболее информативных частей делают обработку больших контекстов более реальной и эффективной. Это важно для анализа длинных отчетов, работы с длительными многотуровыми диалогами и масштабирования RAG-систем в корпоративной среде, где критичны задержка и память.