Baidu представляет ERNIE 4.5: открытые LLM от 0.3B до 424B параметров
Baidu выпустила ERNIE 4.5 — серию открытых больших языковых моделей с параметрами от 0.3 до 424 миллиардов, обладающих продвинутой архитектурой и высокой производительностью в многоязычных задачах.
ERNIE 4.5: новая веха в открытых фундаментальных моделях
Baidu официально выпустила серию ERNIE 4.5 с открытым исходным кодом, представляющую мощный набор моделей для улучшенного понимания, рассуждений и генерации текста. Серия включает десять вариантов моделей — от компактных плотных моделей с 0.3 миллиарда параметров до огромных архитектур Mixture-of-Experts (MoE) с общим числом параметров до 424 миллиардов.
Архитектура и обучение
Модели ERNIE 4.5 развивают предыдущие версии за счет интеграции как плотных, так и разреженных архитектур MoE. MoE-варианты, например ERNIE 4.5-MoE-3B и ERNIE 4.5-MoE-47B, активируют лишь небольшой набор экспертов на каждый входной токен (обычно 2 из 64), что позволяет держать количество активных параметров на управляемом уровне, сохраняя при этом выразительность и обобщающую способность.
Обучение проводится с использованием смеси методов: тонкая настройка с учителем (SFT), обучение с подкреплением с обратной связью от человека (RLHF) и контрастивное выравнивание. Корпус для обучения содержит 5.6 триллионов токенов на китайском и английском языках, что позволяет моделям эффективно справляться с задачами следования инструкциям, многократного диалога, генерации длинных текстов и рассуждений.
Варианты моделей и открытый доступ
В релиз вошли десять вариантов моделей:
- Плотные модели: ERNIE 4.5-0.3B, 0.5B, 1.8B, 4B
- MoE модели: ERNIE 4.5-MoE-3B, 4B, 6B, 15B, 47B, 424B
Например, MoE-47B активирует только 3 миллиарда параметров при инференсе, несмотря на общий объем в 47 миллиардов. Самая большая модель с 424 миллиардами параметров использует разреженную активацию для обеспечения масштабируемости и эффективности. Все модели поддерживают квантование FP16 и INT8 для оптимального развёртывания.
Результаты производительности
ERNIE 4.5 демонстрирует высокие показатели на ключевых тестах:
- CMMLU: достигает передовых результатов в понимании китайского языка, превосходя предыдущие версии ERNIE.
- MMLU: версия ERNIE 4.5-47B показывает конкурентоспособные результаты с ведущими LLM, такими как GPT-4 и Claude.
- Генерация длинных текстов: повышенная связность и фактологическая точность по внутренним метрикам Baidu.
- Следование инструкциям: улучшенное соответствие намерениям пользователей и сниженный уровень галлюцинаций благодаря контрастивной тонкой настройке.
Применение и развёртывание
Модели подходят для широкого круга задач: чатботы и помощники с поддержкой нескольких языков, поисковые системы и системы вопросов-ответов с высокой точностью, генерация контента с улучшенной фактологической точностью. Некоторые варианты поддерживают контекст длиной до 128 тысяч токенов, что расширяет возможности работы с длинными документами или многосессионными диалогами. Baidu также отмечает совместимость ERNIE 4.5 с мультимодальными расширениями.
Открытость и перспективы
Публикация ERNIE 4.5 с полным доступом на Hugging Face и подробной документацией способствует развитию инклюзивных исследований в области ИИ. Это важный шаг в создании масштабируемых, многоязычных и ориентированных на инструкции больших языковых моделей.
Изучить статью и модели можно на Hugging Face, чтобы глубже познакомиться с этой передовой технологией.
Switch Language
Read this article in English