Сравнение: Трансформеры и Модель Микса Экспертов (MoE)

Эффективность Моделей MoE

Вопрос:
Как модели MoE, имея гораздо больше параметров, могут работать быстрее при выводе?

Различия между Трансформерами и Моделями Микса Экспертов (MoE)

Трансформеры и модели Mixture of Experts (MoE) имеют общую архитектуру — слои самовнимания, за которыми следуют полносвязные слои, но они по-разному используют параметры и вычисления.

Полносвязная Сеть против Экспертов

Трансформер: Каждое звено содержит одну большую полносвязную сеть (FFN), и каждый токен активирует все параметры при выводе.
MoE: Заменяет FFN множеством меньших полносвязных сетей, называемых экспертами. Сетевое маршрутизирование выбирает только несколько экспертов (Top-K) на токен, так что задействована лишь небольшая часть всех параметров.

Использование Параметров

Трансформер: Все параметры на всех уровнях используются для каждого токена → плотные вычисления.
MoE: Имеет больше параметров в целом, но активирует только небольшую часть на токен → разреженные вычисления. Например, Mixtral 8×7B имеет 46.7B параметров, но использует лишь ~13B на токен.

Стоимость Вычислений

Трансформер: Высокая стоимость вывода из-за полной активации параметров. Масштабирование до моделей, таких как GPT-4 или Llama 2 70B, требует мощного оборудования.
MoE: Низкая стоимость вывода, поскольку активно только K экспертов на слой. Это делает модели MoE быстрее и дешевле в работе, особенно в больших масштабах.

Маршрутизация Токенов

Трансформер: Нет маршрутизации. Каждый токен следует тем же управляющим путям через все слои.
MoE: Обученный маршрутизатор назначает токены экспертам на основе оценок softmax. Разные токены выбирают различных экспертов, что добавляет специализацию и емкость модели.

В емкость Модели

Трансформер: Для увеличения емкости единственным вариантом является добавление уровней или увеличение FFN — оба варианта значительно увеличивают FLOPs.
MoE: Может масштабировать общее число параметров без увеличения вычислений на токен, что позволяет создавать «большие мозги при низких затратах на выполнение».

Архитектура MoE

Хотя архитектуры MoE предлагают огромную емкость с низкой стоимостью вывода, они также представляют собой несколько проблем при обучении. Наиболее распространенной является коллапс экспертов, когда маршрутизатор многократно выбирает одних и тех же экспертов, оставляя других недообученными.

Несоответствие нагрузки является еще одной проблемой — некоторые эксперты могут получать значительно больше токенов, чем другие, что приводит к неравномерному обучению. Чтобы решить эту проблему, модели MoE полагаются на такие техники, как инъекция шума в маршрутизации, маскирование Top-K и пределы возможностей экспертов.

Эти механизмы обеспечивают активность и баланс всех экспертов, но также делают системы MoE более сложными для обучения по сравнению со стандартными трансформерами.

Проблемы в MoE