FlexOlmo: революция в обучении языковых моделей без обмена данными

Преодоление ограничений обмена данными при обучении LLM

Для обучения крупных языковых моделей (LLM) традиционно требуется централизованный доступ к большим объёмам данных, многие из которых являются конфиденциальными или юридически ограниченными. Это создает значительные препятствия для организаций с регламентированными или собственными данными.

FlexOlmo: модульное и децентрализованное обучение

FlexOlmo, разработанный исследователями из Allen Institute for AI и партнёрами, предлагает модульный фреймворк для обучения и инференса, учитывающий ограничения в области управления данными. Он позволяет обучать компоненты модели независимо на локальных приватных данных без обмена сырыми данными.

Архитектура на основе Mixture-of-Experts (MoE)

FlexOlmo построен на архитектуре Mixture-of-Experts, где каждый эксперт — это отдельная feedforward-сеть, обучаемая независимо на приватных данных. Фиксированная публичная модель служит опорой, а слои внимания и другие параметры остаются замороженными. Активируются только релевантные эксперты для каждого токена.

Ключевые особенности:

Маршрутизация экспертов с использованием эмбеддингов, основанных на домене, без совместного обучения.
Регуляризация смещения для балансировки выбора экспертов.
Независимая и асинхронная оптимизация каждого эксперта.

Набор данных FLEXMIX и процесс обучения

Корпус FLEXMIX разделён на публичный микс и семь закрытых наборов, имитирующих несшарируемые домены: Новости, Reddit, Код, Академический текст и др. Каждый эксперт обучается на отдельном наборе, что отражает реальные сценарии изоляции данных.

Результаты и оценка

FlexOlmo протестирован на 31 бенчмарке по языковому пониманию, генеративному QA, генерации кода и математическим задачам. Он значительно превзошёл базовые методы, особенно в специализированных доменах.

Механизм отказа от участия и приватность

Отличительная черта — детерминированный отказ от участия, позволяющий исключать влияние любого эксперта на этапе инференса без дополнительного обучения. Оценка рисков извлечения данных показала низкий уровень утечек. Архитектура поддерживает интеграцию с методами дифференциальной приватности.

Масштабируемость и совместимость

На базе OLMo-2 7B, обученной на 4 триллионах токенов, FlexOlmo добавил экспертов для математики и кода, улучшив показатели без дообучения основной модели. Это демонстрирует масштабируемость и простоту интеграции.

FlexOlmo открывает путь к созданию мощных и конфиденциальных языковых моделей, соответствующих политикам управления данными, что является прорывом для организаций, нуждающихся в безопасных и модульных AI-решениях.