IBM представила два компактных эмбеддинга Granite на базе ModernBERT с поддержкой длинного контекста

сентября 13, 2025 · 2 min

IBM выпустила две модели Granite R2

Исследовательская команда IBM представила две новые модели эмбеддингов: granite-embedding-english-r2 и granite-embedding-small-english-r2. Модели ориентированы на высокопроизводительный retrieval и RAG, компактны, эффективны и доступны по лицензии Apache 2.0, что делает их пригодными для коммерческого использования.

Модели и характеристики

Модели рассчитаны на разные бюджеты вычислений и задержек:

granite-embedding-english-r2: 149 миллионов параметров, эмбеддинги размерности 768, 22-слойный ModernBERT энкодер.
granite-embedding-small-english-r2: 47 миллионов параметров, эмбеддинги размерности 384, 12-слойный ModernBERT энкодер.

Обе модели поддерживают максимальную длину контекста 8192 токена, что существенно превосходит первое поколение Granite и важно для предприятий, работающих с длинными документами и сложными поисковыми задачами.

Ссылка: https://arxiv.org/abs/2508.21085

Архитектура и этапы обучения

Backbone обеих моделей — ModernBERT с рядом оптимизаций:

Чередование глобального и локального внимания для баланса между эффективностью и моделированием дальних зависимостей.
Rotary positional embeddings (RoPE) с настройкой для позиционной интерполяции, что позволяет расширить окно контекста.
FlashAttention 2 для экономии памяти и повышения пропускной способности при инференсе.

Обучение проходило по многоступенчатой схеме: маскированное языковое предобучение на корпусе из двух триллионов токенов (включая web, Wikipedia, PubMed, BookCorpus и внутренние технические документы IBM); расширение контекста с 1k до 8k токенов; контрастивное обучение с дистилляцией от Mistral-7B; и тонкая настройка под домены разговорных задач, табличного поиска и поиска по коду.

Результаты на бенчмарках и прикладные домены

Granite R2 показывает конкурентные результаты на стандартных retrieval-бенчмарках. На MTEB-v2 и BEIR большая модель granite-embedding-english-r2 обходит сопоставимые по размеру модели типа BGE Base, E5 и Arctic Embed. Малая модель granite-embedding-small-english-r2 демонстрирует точность, близкую к моделям в два-три раза большего размера, что делает ее привлекательной для задач с жесткими требованиями по задержке.

Сферы, где модели особенно сильны:

Поиск в длинных документах (MLDR, LongEmbed) благодаря поддержке 8k контекста.
Табличный поиск и задачи со структурированным рассуждением (OTT-QA, FinQA, OpenWikiTables).
Поиск кода (CoIR), включая текст-в-код и код-в-текст сценарии.

Ссылка: https://arxiv.org/abs/2508.21085

Пропускная способность и практичность развертывания

Одна из ключевых сильных сторон Granite R2 — эффективность. На Nvidia H100 granite-embedding-small-english-r2 кодирует почти 200 документов в секунду, что заметно быстрее BGE Small и E5 Small. Большая модель достигает порядка 144 документов в секунду и опережает многие альтернативы на базе ModernBERT.

Модели также жизнеспособны в CPU-средах, что позволяет предприятиям запускать retrieval-задачи без сильной зависимости от GPU. Сочетание скорости, компактности и точности делает Granite R2 подходящим выбором для продакшн-систем.

Практическое значение для retrieval и RAG

Granite R2 показывает, что для эффективного retrieval и поддержки длинного контекста не обязательно иметь огромные модели. Благодаря лицензии Apache 2.0 и ориентированности на пропускную способность, эти эмбеддинги представляют собой практичную альтернативу для компаний, строящих RAG, поисковые пайплайны и системы управления знаниями.