IBM представила два компактных эмбеддинга Granite на базе ModernBERT с поддержкой длинного контекста
IBM выпустила две модели Granite R2
Исследовательская команда IBM представила две новые модели эмбеддингов: granite-embedding-english-r2 и granite-embedding-small-english-r2. Модели ориентированы на высокопроизводительный retrieval и RAG, компактны, эффективны и доступны по лицензии Apache 2.0, что делает их пригодными для коммерческого использования.
Модели и характеристики
Модели рассчитаны на разные бюджеты вычислений и задержек:
- granite-embedding-english-r2: 149 миллионов параметров, эмбеддинги размерности 768, 22-слойный ModernBERT энкодер.
- granite-embedding-small-english-r2: 47 миллионов параметров, эмбеддинги размерности 384, 12-слойный ModernBERT энкодер.
Обе модели поддерживают максимальную длину контекста 8192 токена, что существенно превосходит первое поколение Granite и важно для предприятий, работающих с длинными документами и сложными поисковыми задачами.
Ссылка: https://arxiv.org/abs/2508.21085
Архитектура и этапы обучения
Backbone обеих моделей — ModernBERT с рядом оптимизаций:
- Чередование глобального и локального внимания для баланса между эффективностью и моделированием дальних зависимостей.
- Rotary positional embeddings (RoPE) с настройкой для позиционной интерполяции, что позволяет расширить окно контекста.
- FlashAttention 2 для экономии памяти и повышения пропускной способности при инференсе.
Обучение проходило по многоступенчатой схеме: маскированное языковое предобучение на корпусе из двух триллионов токенов (включая web, Wikipedia, PubMed, BookCorpus и внутренние технические документы IBM); расширение контекста с 1k до 8k токенов; контрастивное обучение с дистилляцией от Mistral-7B; и тонкая настройка под домены разговорных задач, табличного поиска и поиска по коду.
Результаты на бенчмарках и прикладные домены
Granite R2 показывает конкурентные результаты на стандартных retrieval-бенчмарках. На MTEB-v2 и BEIR большая модель granite-embedding-english-r2 обходит сопоставимые по размеру модели типа BGE Base, E5 и Arctic Embed. Малая модель granite-embedding-small-english-r2 демонстрирует точность, близкую к моделям в два-три раза большего размера, что делает ее привлекательной для задач с жесткими требованиями по задержке.
Сферы, где модели особенно сильны:
- Поиск в длинных документах (MLDR, LongEmbed) благодаря поддержке 8k контекста.
- Табличный поиск и задачи со структурированным рассуждением (OTT-QA, FinQA, OpenWikiTables).
- Поиск кода (CoIR), включая текст-в-код и код-в-текст сценарии.
Ссылка: https://arxiv.org/abs/2508.21085
Пропускная способность и практичность развертывания
Одна из ключевых сильных сторон Granite R2 — эффективность. На Nvidia H100 granite-embedding-small-english-r2 кодирует почти 200 документов в секунду, что заметно быстрее BGE Small и E5 Small. Большая модель достигает порядка 144 документов в секунду и опережает многие альтернативы на базе ModernBERT.
Модели также жизнеспособны в CPU-средах, что позволяет предприятиям запускать retrieval-задачи без сильной зависимости от GPU. Сочетание скорости, компактности и точности делает Granite R2 подходящим выбором для продакшн-систем.
Практическое значение для retrieval и RAG
Granite R2 показывает, что для эффективного retrieval и поддержки длинного контекста не обязательно иметь огромные модели. Благодаря лицензии Apache 2.0 и ориентированности на пропускную способность, эти эмбеддинги представляют собой практичную альтернативу для компаний, строящих RAG, поисковые пайплайны и системы управления знаниями.