Apple представила CLaRa для повышения сжатия RAG

Проблема в системах RAG

Как сохранить точность и эффективность систем RAG, когда каждый запрос пытается втиснуть тысячи токенов в окно контекста, а извлекатель и генератор все еще оптимизированы как две отдельных, несоединимых системы? Команда исследователей из Apple и Университета Эдинбурга выпустила CLaRa, Continuous Latent Reasoning, (CLaRa-7B-Base, CLaRa-7B-Instruct и CLaRa-7B-E2E) — систему с добавлением информации, которая сжимает документы в непрерывные токены и затем выполняет как извлечение, так и генерацию в этом общем латентном пространстве. Цель проста. Сократить контекст, избежать двойного кодирования и позволить генератору обучить извлекатель, что на самом деле имеет значение для дальнейших ответов.

От сырых документов к непрерывным памятным токенам

CLaRa начинает с семантического компрессора, который прикрепляет небольшое количество обученных памятных токенов к каждому документу. Во время предварительного обучения выделяющего компрессора (SCP) основная модель - это трансформер стиля Mistral 7B с LoRA-адаптерами, которые переключаются между ролями компрессора и генератора. Последние скрытые состояния слоя памятных токенов становятся сжимающим представлением для этого документа.

SCP обучается на около 2M отрывках из Wikipedia 2021. Локальная модель Qwen-32B генерирует три сигнала для каждого отрывка. Простые пары QA охватывают атомарные факты, в то время как сложные пары QA обеспечивают многопереходное мышление. Парафразы перераспределяют и сжимают текст, сохраняя семантику. Цикл проверки проверяет фактическую согласованность и охват для до 10 раундов, прежде чем принять образец.

Обучение используется с двумя потерями. Условный кросс-энтропийный термин обучает генератор отвечать на вопросы или производить парафразы, основанные только на памятных токенах. Термин среднеквадратичной ошибки выравнивает среднее скрытое состояние токенов документа с средним скрытым состоянием памятных токенов. Потеря MSE предлагает стабильные приросты примерно на 0.3 до 0.6 F1 баллов при коэффициентах сжатия 32 и 128.

Совмещение извлечения и генерации в общем пространстве

После офлайн-сжатия каждый документ представлен только его памятными токенами. CLaRa обучает разум запроса и генератор ответов на единой базе. Разум запроса сопоставляет вводимый вопрос с тем же количеством памятных токенов, используемых для документов. Извлечение становится чистым поиском встраивания на основе косинусного сходства.

Лучшие сжатые встраивания документа для запроса конкатенируются с токенами запроса и вводятся в генераторный адаптер. Обучение использует стандартную потерю предсказания следующего токена для финального ответа без явных меток релевантности. Ключевой трюк — дифференцируемый селектор топ-k, который позволяет градиентам генератора течь в параметры разума запроса.

Качество сжатия и точность QA

Компрессор оценивается на четырех наборах данных QA: Natural Questions, HotpotQA, MuSiQue и 2WikiMultihopQA. В нормальных условиях CLaRa при четырехкратном сжатии достигает средней F1 39.86, опережая сильные базовые линии. В условии Oracle он превышает F1 66.76 при том же сжатии.

Поведение QA и извлечения от конца до конца

CLaRa использует 20 кандидатных документов на запрос с коэффициентами сжатия 4, 16 и 32. В нормальных условиях он демонстрирует сопоставимую производительность с моделями, использующими полный не-сжатый текст, при этом используя значительно более короткие представления документов.

Что выпустила Apple?

Исследовательская команда Apple выпустила три модели на Hugging Face: CLaRa-7B-Base, CLaRa-7B-Instruct и CLaRa-7B-E2E. В частности, CLaRa-7B-Instruct представляет собой унифицированную модель RAG, разработанную для обработки запросов в стиле инструкций из сжатых представлений.

Ключевые моменты

CLaRa заменяет сырые документы на небольшой набор непрерывных памятных токенов, изученных с помощью семантического сжатия на основе QA и парафраз.
Извлечение и генерация обучаются в одном общем латентном пространстве.
Дифференцируемый оценщик топ-k выравнивает релевантность документов с качеством ответов.
SCP-компрессор CLaRa превосходит сильные текстовые базисы.
Apple сделала практические модели доступными на Hugging Face, что подчеркивает ее приверженность улучшению систем RAG.

Редакционные заметки

CLaRa представляет собой существенный шаг вперед в появлении систем с добавлением извлеченной информации, показывая, что основанное на встраивании сжатие, в сочетании с обучением от конца до конца, может превзойти традиционные текстовые методы, при этом сохраняя эффективность.