Meta AI представляет ReasonIR-8B: эффективный ретривер для сложного рассуждения в RAG-системах

Проблемы в ретривале для задач, требующих рассуждений

Ретривальные системы с дополнением генерации (RAG) значительно продвинулись, но поиск релевантной информации для сложных многоэтапных рассуждений всё ещё остаётся проблемой. Традиционные ретриверы хорошо работают с короткими фактологическими вопросами, основанными на лексическом или семантическом совпадении, но испытывают трудности с длинными, абстрактными или междисциплинарными запросами, требующими синтеза разрозненных знаний. Ошибки на этапе поиска информации могут негативно сказаться на работе больших языковых моделей (LLM). Хотя LLM-реранкеры повышают релевантность, их высокая вычислительная стоимость ограничивает практическое применение.

Представление ReasonIR-8B от Meta AI

Meta AI выпустила ReasonIR-8B — модель-ретривер, специально разработанную для задач, требующих интенсивного рассуждения. Основанный на LLaMA3.1-8B, он устанавливает новые рекорды на бенчмарке BRIGHT с нормализованным Discounted Cumulative Gain (nDCG@10) 36.9 при использовании лёгкого реранкера Qwen2.5. Этот результат превосходит более крупные модели реранкинга, такие как Rank1-32B, при в 200 раз меньших вычислительных затратах, что делает модель практичной для масштабных RAG-приложений.

Архитектура и инновационный тренировочный процесс

ReasonIR-8B использует би-энкодер, который независимо кодирует запросы и документы в эмбеддинги, оцениваемые по косинусной схожести. Обучение базируется на новом синтетическом пайплайне ReasonIR-SYNTHESIZER, создающем два основных типа тренировочных данных:

Запросы переменной длины (VL): длинные и насыщенные информацией запросы до 2000 токенов с соответствующими документами, что помогает эффективно работать с длинными контекстами.
Трудные запросы (HQ): сформированы из образовательных документов, требующих логических выводов, с использованием многошаговых подсказок для создания «трудных негативов» — документов, кажущихся релевантными, но не содержащих необходимых логических связей.

Такой подход отличается от традиционных методов отбора негативных примеров, основанных на лексическом совпадении, и лучше подходит для абстрактных и многошаговых вопросов. Кроме того, в модели изменена маска внимания LLaMA с причинно-направленной на двунаправленную, что позволяет симметрично учитывать весь контекст запроса, улучшая семантическое выравнивание.

Результаты на бенчмарках IR и RAG

ReasonIR-8B показывает высокую эффективность:

Бенчмарк BRIGHT:
- 24.4 nDCG@10 на оригинальных запросах
- 29.9 nDCG@10 на запросах, переписанных GPT-4
- 36.9 nDCG@10 с реранкингом Qwen2.5, превосходя более крупные модели с меньшими затратами
Задачи RAG:
- Улучшение на 6.4% по MMLU относительно закрытых моделей
- Улучшение на 22.6% по GPQA

Производительность модели растёт с увеличением длины запросов, в отличие от других ретриверов, у которых эффективность стабилизируется или падает. Совмещение ReasonIR-8B с разреженными ретриверами или лёгкими реранкерами даёт дополнительные улучшения.

Открытый релиз и перспективы

Meta AI открыто публикует ReasonIR-8B, код обучения и инструменты генерации синтетических данных на Hugging Face, стимулируя дальнейшие исследования в области более надёжных, многоязычных и мультимодальных ретриверов. ReasonIR-8B представляет собой эффективное и качественное решение для задач, требующих рассуждений, пригодное для реальных приложений.