Baidu представляет ERNIE 4.5: открытые LLM от 0.3B до 424B параметров

ERNIE 4.5: новая веха в открытых фундаментальных моделях

Baidu официально выпустила серию ERNIE 4.5 с открытым исходным кодом, представляющую мощный набор моделей для улучшенного понимания, рассуждений и генерации текста. Серия включает десять вариантов моделей — от компактных плотных моделей с 0.3 миллиарда параметров до огромных архитектур Mixture-of-Experts (MoE) с общим числом параметров до 424 миллиардов.

Архитектура и обучение

Модели ERNIE 4.5 развивают предыдущие версии за счет интеграции как плотных, так и разреженных архитектур MoE. MoE-варианты, например ERNIE 4.5-MoE-3B и ERNIE 4.5-MoE-47B, активируют лишь небольшой набор экспертов на каждый входной токен (обычно 2 из 64), что позволяет держать количество активных параметров на управляемом уровне, сохраняя при этом выразительность и обобщающую способность.

Обучение проводится с использованием смеси методов: тонкая настройка с учителем (SFT), обучение с подкреплением с обратной связью от человека (RLHF) и контрастивное выравнивание. Корпус для обучения содержит 5.6 триллионов токенов на китайском и английском языках, что позволяет моделям эффективно справляться с задачами следования инструкциям, многократного диалога, генерации длинных текстов и рассуждений.

Варианты моделей и открытый доступ

В релиз вошли десять вариантов моделей:

Плотные модели: ERNIE 4.5-0.3B, 0.5B, 1.8B, 4B
MoE модели: ERNIE 4.5-MoE-3B, 4B, 6B, 15B, 47B, 424B

Например, MoE-47B активирует только 3 миллиарда параметров при инференсе, несмотря на общий объем в 47 миллиардов. Самая большая модель с 424 миллиардами параметров использует разреженную активацию для обеспечения масштабируемости и эффективности. Все модели поддерживают квантование FP16 и INT8 для оптимального развёртывания.

Результаты производительности

ERNIE 4.5 демонстрирует высокие показатели на ключевых тестах:

CMMLU: достигает передовых результатов в понимании китайского языка, превосходя предыдущие версии ERNIE.
MMLU: версия ERNIE 4.5-47B показывает конкурентоспособные результаты с ведущими LLM, такими как GPT-4 и Claude.
Генерация длинных текстов: повышенная связность и фактологическая точность по внутренним метрикам Baidu.
Следование инструкциям: улучшенное соответствие намерениям пользователей и сниженный уровень галлюцинаций благодаря контрастивной тонкой настройке.

Применение и развёртывание

Модели подходят для широкого круга задач: чатботы и помощники с поддержкой нескольких языков, поисковые системы и системы вопросов-ответов с высокой точностью, генерация контента с улучшенной фактологической точностью. Некоторые варианты поддерживают контекст длиной до 128 тысяч токенов, что расширяет возможности работы с длинными документами или многосессионными диалогами. Baidu также отмечает совместимость ERNIE 4.5 с мультимодальными расширениями.

Открытость и перспективы

Публикация ERNIE 4.5 с полным доступом на Hugging Face и подробной документацией способствует развитию инклюзивных исследований в области ИИ. Это важный шаг в создании масштабируемых, многоязычных и ориентированных на инструкции больших языковых моделей.

Изучить статью и модели можно на Hugging Face, чтобы глубже познакомиться с этой передовой технологией.