ByteDance представляет QuaDMix: революция в предобучении больших языковых моделей с оптимизацией качества и разнообразия данных

Проблема качества и разнообразия данных при предобучении больших языковых моделей

Эффективность и обобщающая способность больших языковых моделей (LLM) во многом зависят от качества и разнообразия обучающих данных. Традиционные методы подготовки данных часто рассматривают качество и разнообразие как отдельные задачи: сначала фильтруют по качеству, затем балансируют по доменам. Такой подход не учитывает сложные взаимосвязи между этими факторами. Высококачественные данные часто имеют доменные смещения, а разнообразные данные могут страдать по качеству. При ограниченных ресурсах обучения важно одновременно оптимизировать оба параметра для максимальной производительности модели, что является сложной задачей.

Представляем QuaDMix: единая система оптимизации

Компания ByteDance разработала QuaDMix — инновационную систему выбора данных, которая одновременно балансирует качество и разнообразие при предобучении LLM. QuaDMix оценивает каждый образец данных по нескольким критериям качества и доменным меткам, определяя вероятность выборки через параметрическую функцию. Для эффективной оптимизации параметров без полного обучения модели используется комбинация прокси-моделей и регрессии LightGBM для предсказания производительности.

Принцип работы QuaDMix

Система состоит из трёх основных этапов:

Извлечение признаков: каждому документу присваиваются доменные метки и несколько оценок качества.
Агрегация качества: оценки нормализуются и объединяются с учётом доменных параметров для вычисления итогового показателя качества.
Выборка с учётом качества и разнообразия: выборка документов происходит по сигмоидальной функции, которая отдаёт приоритет более качественным образцам при сохранении баланса между доменами посредством параметрических настроек.

Оптимизация проводится путём обучения тысяч прокси-моделей с разными параметрами. Регрессионная модель, обученная на результатах этих экспериментов, предсказывает итоговую производительность и помогает найти оптимальные параметры выборки. Такой подход позволяет структурированно исследовать сложное пространство параметров, максимально приближая выбор данных к целям конечных задач.

Преимущества QuaDMix

Единая оптимизация качества данных и доменного разнообразия.
Гибкость под конкретные задачи через выбор целей прокси-оценки.
Вычислительная эффективность за счёт отказа от полного переобучения моделей.
Стабильное улучшение результатов без увеличения вычислительных затрат.

Результаты экспериментов

Валидация проводилась на датасете RefinedWeb с моделями размером 530 миллионов параметров, обучаемыми с нуля. QuaDMix сравнивали с различными методами, включая случайный выбор, Fineweb-edu, AskLLM, DCLM, DSIR и RegMix. QuaDMix показал среднее улучшение производительности на 7.2%, достигнув среднего результата 39.5% по девяти разнообразным бенчмаркам.

Ключевые выводы:

Совместная оптимизация превосходит методы, ориентированные только на качество или разнообразие.
Производительность прокси-моделей хорошо коррелирует с результатами полноразмерных моделей.
Оптимизация под конкретные задачи улучшает итоговые показатели.
Комбинирование нескольких критериев качества снижает смещения и повышает устойчивость моделей.
Увеличение разнообразия токенов сверх определённого порога даёт ограниченный эффект, подчёркивая важность качественной подготовки данных.