LFM2-ColBERT-350M: компактный late-interaction ретривер для многоязычного и кросс-языкового RAG
'Liquid AI представила LFM2-ColBERT-350M, 350M параметров, который обеспечивает индексирование один раз и поиск по многим языкам с высокой точностью и конкурентной скоростью инференса.'
Что предлагает LFM2-ColBERT-350M
Liquid AI представила LFM2-ColBERT-350M, компактный late-interaction ретривер, ориентированный на многоязычный и кросс-языковый поиск для систем Retrieval Augmented Generation. Модель позволяет индексировать документы на одном языке и обрабатывать запросы на множестве языков, сохраняя высокую точность поиска и быструю инференс.
Принцип late interaction и его значение
В продукционных системах обычно выбирают между bi-encoders ради скорости и cross-encoders ради точности. Late interaction сочетает преимущества обеих схем. Запросы и документы кодируются отдельно на уровне токенов, а затем в момент запроса векторные представления токенов сравниваются с помощью функции сходства, например MaxSim. Такой подход сохраняет тонкие взаимодействия на уровне токенов без полной стоимости совместного cross attention, позволяет прекомпактировать векторные представления документов и повышает точность ранжирования. Late interaction можно использовать и как первичный ретривер, и как ранкер в одном проходе.
Архитектура и характеристики модели
Ключевые спецификации LFM2-ColBERT-350M:
- Общее число параметров: 350 миллионов
- Слои: 25 (18 сверточных блоков, 6 attention блоков, 1 плотный слой)
- Длина контекста: 32k токенов
- Размер словаря: 65 536
- Функция сходства: MaxSim
- Выходная размерность: 128
- Точность обучения: BF16
- Лицензия: LFM Open License v1.0
Команда Liquid AI отмечает, что скорость инференса сопоставима с моделями примерно в 2.3 раза меньшего размера, что связывают с эффективностью LFM2 backbone.
Поддерживаемые языки и охват оценок
В модельной карточке указано 8 поддерживаемых языков: английский, арабский, китайский, французский, немецкий, японский, корейский и испанский. В оценке добавлены итальянский и португальский, что даёт матрицу из 9 языков для перекрёстных сравнений языков документов и запросов. Это важно при планировании развёртывания для конкретных рынков.
Оценка и результаты
Liquid AI расширила набор NanoBEIR добавлением японского и корейского языков и опубликовала это расширение для воспроизводимости. В условиях этого бенчмарка LFM2-ColBERT-350M показывает более сильные многоязычные способности по сравнению с предыдущим late-interaction базовым решением в этом классе, GTE-ModernColBERT-v1 с 150M параметров. Наибольшие приросты зафиксированы для немецкого, арабского, корейского и японского языков, при этом достижения по английскому языку сохранены.
Основные выводы для RAG и retrieval
- Оценка на уровне токенов с MaxSim сохраняет тонкие взаимодействия при сохранении раздельных энкодеров, что позволяет прекомпьютить эмбеддинги документов и быстро выполнять запросы.
- Документы можно индексировать один раз на одном языке и затем извлекать их по запросам на многих языках, что упрощает многоязычные развёртывания.
- В расширении NanoBEIR LFM2-ColBERT-350M превосходит предшественника в классе 150M параметров и сохраняет качество по английскому языку.
- Скорость инференса сопоставима с моделями в 2.3 раза меньшего размера благодаря архитектуре LFM2.
Где попробовать и какие есть материалы
Модель доступна на Hugging Face с демонстрацией и подробной модельной карточкой для интеграции в RAG-системы. Liquid AI также предоставляет веса модели, примеры ноутбуков и учебные материалы на GitHub для команд, желающих протестировать или развернуть ретривер в продукционной среде.
Switch Language
Read this article in English