<НА ГЛАВНУЮ

ByteDance представляет QuaDMix: революция в предобучении больших языковых моделей с оптимизацией качества и разнообразия данных

ByteDance анонсировала QuaDMix — систему, которая улучшает предобучение больших языковых моделей за счёт совместной оптимизации качества и разнообразия данных, обеспечивая значительный прирост производительности.

Проблема качества и разнообразия данных при предобучении больших языковых моделей

Эффективность и обобщающая способность больших языковых моделей (LLM) во многом зависят от качества и разнообразия обучающих данных. Традиционные методы подготовки данных часто рассматривают качество и разнообразие как отдельные задачи: сначала фильтруют по качеству, затем балансируют по доменам. Такой подход не учитывает сложные взаимосвязи между этими факторами. Высококачественные данные часто имеют доменные смещения, а разнообразные данные могут страдать по качеству. При ограниченных ресурсах обучения важно одновременно оптимизировать оба параметра для максимальной производительности модели, что является сложной задачей.

Представляем QuaDMix: единая система оптимизации

Компания ByteDance разработала QuaDMix — инновационную систему выбора данных, которая одновременно балансирует качество и разнообразие при предобучении LLM. QuaDMix оценивает каждый образец данных по нескольким критериям качества и доменным меткам, определяя вероятность выборки через параметрическую функцию. Для эффективной оптимизации параметров без полного обучения модели используется комбинация прокси-моделей и регрессии LightGBM для предсказания производительности.

Принцип работы QuaDMix

Система состоит из трёх основных этапов:

  1. Извлечение признаков: каждому документу присваиваются доменные метки и несколько оценок качества.
  2. Агрегация качества: оценки нормализуются и объединяются с учётом доменных параметров для вычисления итогового показателя качества.
  3. Выборка с учётом качества и разнообразия: выборка документов происходит по сигмоидальной функции, которая отдаёт приоритет более качественным образцам при сохранении баланса между доменами посредством параметрических настроек.

Оптимизация проводится путём обучения тысяч прокси-моделей с разными параметрами. Регрессионная модель, обученная на результатах этих экспериментов, предсказывает итоговую производительность и помогает найти оптимальные параметры выборки. Такой подход позволяет структурированно исследовать сложное пространство параметров, максимально приближая выбор данных к целям конечных задач.

Преимущества QuaDMix

  • Единая оптимизация качества данных и доменного разнообразия.
  • Гибкость под конкретные задачи через выбор целей прокси-оценки.
  • Вычислительная эффективность за счёт отказа от полного переобучения моделей.
  • Стабильное улучшение результатов без увеличения вычислительных затрат.

Результаты экспериментов

Валидация проводилась на датасете RefinedWeb с моделями размером 530 миллионов параметров, обучаемыми с нуля. QuaDMix сравнивали с различными методами, включая случайный выбор, Fineweb-edu, AskLLM, DCLM, DSIR и RegMix. QuaDMix показал среднее улучшение производительности на 7.2%, достигнув среднего результата 39.5% по девяти разнообразным бенчмаркам.

Ключевые выводы:

  • Совместная оптимизация превосходит методы, ориентированные только на качество или разнообразие.
  • Производительность прокси-моделей хорошо коррелирует с результатами полноразмерных моделей.
  • Оптимизация под конкретные задачи улучшает итоговые показатели.
  • Комбинирование нескольких критериев качества снижает смещения и повышает устойчивость моделей.
  • Увеличение разнообразия токенов сверх определённого порога даёт ограниченный эффект, подчёркивая важность качественной подготовки данных.

QuaDMix представляет собой значительный шаг вперёд в стратегии выбора данных для предобучения больших языковых моделей, предлагая масштабируемый и эффективный метод для одновременной оптимизации качества и разнообразия данных.

🇬🇧

Switch Language

Read this article in English

Switch to English