ByteDance представляет QuaDMix: революция в предобучении больших языковых моделей с оптимизацией качества и разнообразия данных
ByteDance анонсировала QuaDMix — систему, которая улучшает предобучение больших языковых моделей за счёт совместной оптимизации качества и разнообразия данных, обеспечивая значительный прирост производительности.
Проблема качества и разнообразия данных при предобучении больших языковых моделей
Эффективность и обобщающая способность больших языковых моделей (LLM) во многом зависят от качества и разнообразия обучающих данных. Традиционные методы подготовки данных часто рассматривают качество и разнообразие как отдельные задачи: сначала фильтруют по качеству, затем балансируют по доменам. Такой подход не учитывает сложные взаимосвязи между этими факторами. Высококачественные данные часто имеют доменные смещения, а разнообразные данные могут страдать по качеству. При ограниченных ресурсах обучения важно одновременно оптимизировать оба параметра для максимальной производительности модели, что является сложной задачей.
Представляем QuaDMix: единая система оптимизации
Компания ByteDance разработала QuaDMix — инновационную систему выбора данных, которая одновременно балансирует качество и разнообразие при предобучении LLM. QuaDMix оценивает каждый образец данных по нескольким критериям качества и доменным меткам, определяя вероятность выборки через параметрическую функцию. Для эффективной оптимизации параметров без полного обучения модели используется комбинация прокси-моделей и регрессии LightGBM для предсказания производительности.
Принцип работы QuaDMix
Система состоит из трёх основных этапов:
- Извлечение признаков: каждому документу присваиваются доменные метки и несколько оценок качества.
- Агрегация качества: оценки нормализуются и объединяются с учётом доменных параметров для вычисления итогового показателя качества.
- Выборка с учётом качества и разнообразия: выборка документов происходит по сигмоидальной функции, которая отдаёт приоритет более качественным образцам при сохранении баланса между доменами посредством параметрических настроек.
Оптимизация проводится путём обучения тысяч прокси-моделей с разными параметрами. Регрессионная модель, обученная на результатах этих экспериментов, предсказывает итоговую производительность и помогает найти оптимальные параметры выборки. Такой подход позволяет структурированно исследовать сложное пространство параметров, максимально приближая выбор данных к целям конечных задач.
Преимущества QuaDMix
- Единая оптимизация качества данных и доменного разнообразия.
- Гибкость под конкретные задачи через выбор целей прокси-оценки.
- Вычислительная эффективность за счёт отказа от полного переобучения моделей.
- Стабильное улучшение результатов без увеличения вычислительных затрат.
Результаты экспериментов
Валидация проводилась на датасете RefinedWeb с моделями размером 530 миллионов параметров, обучаемыми с нуля. QuaDMix сравнивали с различными методами, включая случайный выбор, Fineweb-edu, AskLLM, DCLM, DSIR и RegMix. QuaDMix показал среднее улучшение производительности на 7.2%, достигнув среднего результата 39.5% по девяти разнообразным бенчмаркам.
Ключевые выводы:
- Совместная оптимизация превосходит методы, ориентированные только на качество или разнообразие.
- Производительность прокси-моделей хорошо коррелирует с результатами полноразмерных моделей.
- Оптимизация под конкретные задачи улучшает итоговые показатели.
- Комбинирование нескольких критериев качества снижает смещения и повышает устойчивость моделей.
- Увеличение разнообразия токенов сверх определённого порога даёт ограниченный эффект, подчёркивая важность качественной подготовки данных.
QuaDMix представляет собой значительный шаг вперёд в стратегии выбора данных для предобучения больших языковых моделей, предлагая масштабируемый и эффективный метод для одновременной оптимизации качества и разнообразия данных.
Switch Language
Read this article in English