xGen-small от Salesforce: революция в корпоративном ИИ с эффективной обработкой длинного контекста

Проблемы обработки языка в корпоративной среде

Обработка языка в бизнесе сталкивается с серьёзными вызовами из-за необходимости синтеза информации из разнообразных источников: внутренних документов, репозиториев кода, исследовательских отчётов и потоковых данных. Хотя крупные языковые модели обладают впечатляющими возможностями, они сопровождаются высокими затратами, необходимостью постоянного обновления оборудования и рисками для конфиденциальности данных. Увеличение размеров моделей приносит всё меньше преимуществ и требует всё больше энергии, что может ограничить развитие ИИ.

Необходимость сбалансированных моделей ИИ

Современным компаниям нужны решения, которые обеспечивают понимание длинного контекста при сохранении эффективности, предсказуемых низких затрат и надёжной защиты приватности. Малые языковые модели способны удовлетворить эти требования даже при сложных и объёмных задачах вывода.

Ограничения традиционных подходов

Традиционные методы расширения контекста — например, генерация с дополнением (RAG), вызовы внешних инструментов и механизмы памяти — увеличивают сложность и создают возможные точки отказа. Увеличение контекста в больших моделях ведёт к росту вычислительных затрат. Истинная поддержка длинного контекста, позволяющая обработать документы или беседы за один проход, устраняет эти проблемы.

Представляем xGen-small

Исследовательская команда Salesforce AI разработала xGen-small — компактную модель, оптимизированную для эффективной обработки длинного контекста в корпоративных задачах. Она сочетает в себе курирование данных, масштабируемое предварительное обучение, методы удлинения контекста, тонкую настройку инструкций и обучение с подкреплением для высокой производительности при предсказуемых низких затратах.

Инновационная архитектура «Маленькая, но длинная»

xGen-small использует стратегию «маленькая, но длинная», уменьшая размер модели и точно настраивая данные и протоколы обучения для корпоративных доменов. Это требует комплексного подхода к разработке на всех этапах.

Курирование данных и предварительное обучение

Процесс начинается с корпуса в несколько триллионов токенов, включая фильтрацию спама, оценку качества, удаление дубликатов и балансировку общего и специализированного контента (код, математика, естественный язык). Предварительное обучение проводится на TPU v5p с использованием библиотеки Jaxformer v8 и продвинутых оптимизаций.

Производительность и оценка

xGen-small показывает конкурентоспособные результаты, объединяя разнообразные типы данных для баланса эффективности и производительности. Модель 9B достигает лучших результатов на бенчмарке RULER и сохраняет стабильность при длине контекста от 4K до 128K токенов благодаря двухступенчатому удлинению и параллелизму последовательностей.

Тонкая настройка инструкций и обучение с подкреплением

После обучения базовые модели проходят тонкую настройку на разнообразных инструкциях и масштабное обучение с подкреплением для улучшения способностей к рассуждению, особенно в математике, программировании и STEM-задачах, обеспечивая устойчивое выполнение инструкций.

Преимущества для бизнеса

Подход «маленькая, но длинная» снижает затраты на вывод и требования к оборудованию, одновременно обеспечивая бесшовную обработку обширных корпоративных данных без внешних вызовов. xGen-small предлагает устойчивое, экономичное и конфиденциальное решение для масштабного применения ИИ в бизнесе.

Для дополнительной информации посетите модель на Hugging Face и ознакомьтесь с техническими деталями. Следите за обновлениями в Twitter Salesforce AI Research.