FlexOlmo: революция в обучении языковых моделей без обмена данными
FlexOlmo предлагает модульный фреймворк для обучения крупных языковых моделей на приватных данных без обмена ими, обеспечивая высокую производительность и соблюдение правил управления данными.
Преодоление ограничений обмена данными при обучении LLM
Для обучения крупных языковых моделей (LLM) традиционно требуется централизованный доступ к большим объёмам данных, многие из которых являются конфиденциальными или юридически ограниченными. Это создает значительные препятствия для организаций с регламентированными или собственными данными.
FlexOlmo: модульное и децентрализованное обучение
FlexOlmo, разработанный исследователями из Allen Institute for AI и партнёрами, предлагает модульный фреймворк для обучения и инференса, учитывающий ограничения в области управления данными. Он позволяет обучать компоненты модели независимо на локальных приватных данных без обмена сырыми данными.
Архитектура на основе Mixture-of-Experts (MoE)
FlexOlmo построен на архитектуре Mixture-of-Experts, где каждый эксперт — это отдельная feedforward-сеть, обучаемая независимо на приватных данных. Фиксированная публичная модель служит опорой, а слои внимания и другие параметры остаются замороженными. Активируются только релевантные эксперты для каждого токена.
Ключевые особенности:
- Маршрутизация экспертов с использованием эмбеддингов, основанных на домене, без совместного обучения.
- Регуляризация смещения для балансировки выбора экспертов.
- Независимая и асинхронная оптимизация каждого эксперта.
Набор данных FLEXMIX и процесс обучения
Корпус FLEXMIX разделён на публичный микс и семь закрытых наборов, имитирующих несшарируемые домены: Новости, Reddit, Код, Академический текст и др. Каждый эксперт обучается на отдельном наборе, что отражает реальные сценарии изоляции данных.
Результаты и оценка
FlexOlmo протестирован на 31 бенчмарке по языковому пониманию, генеративному QA, генерации кода и математическим задачам. Он значительно превзошёл базовые методы, особенно в специализированных доменах.
Механизм отказа от участия и приватность
Отличительная черта — детерминированный отказ от участия, позволяющий исключать влияние любого эксперта на этапе инференса без дополнительного обучения. Оценка рисков извлечения данных показала низкий уровень утечек. Архитектура поддерживает интеграцию с методами дифференциальной приватности.
Масштабируемость и совместимость
На базе OLMo-2 7B, обученной на 4 триллионах токенов, FlexOlmo добавил экспертов для математики и кода, улучшив показатели без дообучения основной модели. Это демонстрирует масштабируемость и простоту интеграции.
FlexOlmo открывает путь к созданию мощных и конфиденциальных языковых моделей, соответствующих политикам управления данными, что является прорывом для организаций, нуждающихся в безопасных и модульных AI-решениях.
Switch Language
Read this article in English