xGen-small от Salesforce: революция в корпоративном ИИ с эффективной обработкой длинного контекста
xGen-small от Salesforce — компактная модель ИИ для эффективной обработки длинного контекста с низкими затратами и высокой приватностью, меняющая корпоративные рабочие процессы.
Проблемы обработки языка в корпоративной среде
Обработка языка в бизнесе сталкивается с серьёзными вызовами из-за необходимости синтеза информации из разнообразных источников: внутренних документов, репозиториев кода, исследовательских отчётов и потоковых данных. Хотя крупные языковые модели обладают впечатляющими возможностями, они сопровождаются высокими затратами, необходимостью постоянного обновления оборудования и рисками для конфиденциальности данных. Увеличение размеров моделей приносит всё меньше преимуществ и требует всё больше энергии, что может ограничить развитие ИИ.
Необходимость сбалансированных моделей ИИ
Современным компаниям нужны решения, которые обеспечивают понимание длинного контекста при сохранении эффективности, предсказуемых низких затрат и надёжной защиты приватности. Малые языковые модели способны удовлетворить эти требования даже при сложных и объёмных задачах вывода.
Ограничения традиционных подходов
Традиционные методы расширения контекста — например, генерация с дополнением (RAG), вызовы внешних инструментов и механизмы памяти — увеличивают сложность и создают возможные точки отказа. Увеличение контекста в больших моделях ведёт к росту вычислительных затрат. Истинная поддержка длинного контекста, позволяющая обработать документы или беседы за один проход, устраняет эти проблемы.
Представляем xGen-small
Исследовательская команда Salesforce AI разработала xGen-small — компактную модель, оптимизированную для эффективной обработки длинного контекста в корпоративных задачах. Она сочетает в себе курирование данных, масштабируемое предварительное обучение, методы удлинения контекста, тонкую настройку инструкций и обучение с подкреплением для высокой производительности при предсказуемых низких затратах.
Инновационная архитектура «Маленькая, но длинная»
xGen-small использует стратегию «маленькая, но длинная», уменьшая размер модели и точно настраивая данные и протоколы обучения для корпоративных доменов. Это требует комплексного подхода к разработке на всех этапах.
Курирование данных и предварительное обучение
Процесс начинается с корпуса в несколько триллионов токенов, включая фильтрацию спама, оценку качества, удаление дубликатов и балансировку общего и специализированного контента (код, математика, естественный язык). Предварительное обучение проводится на TPU v5p с использованием библиотеки Jaxformer v8 и продвинутых оптимизаций.
Производительность и оценка
xGen-small показывает конкурентоспособные результаты, объединяя разнообразные типы данных для баланса эффективности и производительности. Модель 9B достигает лучших результатов на бенчмарке RULER и сохраняет стабильность при длине контекста от 4K до 128K токенов благодаря двухступенчатому удлинению и параллелизму последовательностей.
Тонкая настройка инструкций и обучение с подкреплением
После обучения базовые модели проходят тонкую настройку на разнообразных инструкциях и масштабное обучение с подкреплением для улучшения способностей к рассуждению, особенно в математике, программировании и STEM-задачах, обеспечивая устойчивое выполнение инструкций.
Преимущества для бизнеса
Подход «маленькая, но длинная» снижает затраты на вывод и требования к оборудованию, одновременно обеспечивая бесшовную обработку обширных корпоративных данных без внешних вызовов. xGen-small предлагает устойчивое, экономичное и конфиденциальное решение для масштабного применения ИИ в бизнесе.
Для дополнительной информации посетите модель на Hugging Face и ознакомьтесь с техническими деталями. Следите за обновлениями в Twitter Salesforce AI Research.
Switch Language
Read this article in English