LFM2-ColBERT-350M: компактный late-interaction ретривер для многоязычного и кросс-языкового RAG

Что предлагает LFM2-ColBERT-350M

Liquid AI представила LFM2-ColBERT-350M, компактный late-interaction ретривер, ориентированный на многоязычный и кросс-языковый поиск для систем Retrieval Augmented Generation. Модель позволяет индексировать документы на одном языке и обрабатывать запросы на множестве языков, сохраняя высокую точность поиска и быструю инференс.

Принцип late interaction и его значение

В продукционных системах обычно выбирают между bi-encoders ради скорости и cross-encoders ради точности. Late interaction сочетает преимущества обеих схем. Запросы и документы кодируются отдельно на уровне токенов, а затем в момент запроса векторные представления токенов сравниваются с помощью функции сходства, например MaxSim. Такой подход сохраняет тонкие взаимодействия на уровне токенов без полной стоимости совместного cross attention, позволяет прекомпактировать векторные представления документов и повышает точность ранжирования. Late interaction можно использовать и как первичный ретривер, и как ранкер в одном проходе.

Архитектура и характеристики модели

Ключевые спецификации LFM2-ColBERT-350M:

Общее число параметров: 350 миллионов
Слои: 25 (18 сверточных блоков, 6 attention блоков, 1 плотный слой)
Длина контекста: 32k токенов
Размер словаря: 65 536
Функция сходства: MaxSim
Выходная размерность: 128
Точность обучения: BF16
Лицензия: LFM Open License v1.0

Команда Liquid AI отмечает, что скорость инференса сопоставима с моделями примерно в 2.3 раза меньшего размера, что связывают с эффективностью LFM2 backbone.

Поддерживаемые языки и охват оценок

В модельной карточке указано 8 поддерживаемых языков: английский, арабский, китайский, французский, немецкий, японский, корейский и испанский. В оценке добавлены итальянский и португальский, что даёт матрицу из 9 языков для перекрёстных сравнений языков документов и запросов. Это важно при планировании развёртывания для конкретных рынков.

Оценка и результаты

Liquid AI расширила набор NanoBEIR добавлением японского и корейского языков и опубликовала это расширение для воспроизводимости. В условиях этого бенчмарка LFM2-ColBERT-350M показывает более сильные многоязычные способности по сравнению с предыдущим late-interaction базовым решением в этом классе, GTE-ModernColBERT-v1 с 150M параметров. Наибольшие приросты зафиксированы для немецкого, арабского, корейского и японского языков, при этом достижения по английскому языку сохранены.

Основные выводы для RAG и retrieval

Оценка на уровне токенов с MaxSim сохраняет тонкие взаимодействия при сохранении раздельных энкодеров, что позволяет прекомпьютить эмбеддинги документов и быстро выполнять запросы.
Документы можно индексировать один раз на одном языке и затем извлекать их по запросам на многих языках, что упрощает многоязычные развёртывания.
В расширении NanoBEIR LFM2-ColBERT-350M превосходит предшественника в классе 150M параметров и сохраняет качество по английскому языку.
Скорость инференса сопоставима с моделями в 2.3 раза меньшего размера благодаря архитектуре LFM2.

Где попробовать и какие есть материалы

Модель доступна на Hugging Face с демонстрацией и подробной модельной карточкой для интеграции в RAG-системы. Liquid AI также предоставляет веса модели, примеры ноутбуков и учебные материалы на GitHub для команд, желающих протестировать или развернуть ретривер в продукционной среде.