Ultra-FineWeb: Триллионный датасет, улучшающий точность LLM на нескольких языках

Совершенствование фильтрации данных для предобучения LLM

Качество данных, используемых для предобучения крупных языковых моделей (LLM), имеет решающее значение для их успешности. Традиционные методы фильтрации, такие как удаление шума и дублирования по правилам, уступили место методам на основе моделей, которые используют нейронные классификаторы для выявления высококачественных образцов. Однако такие подходы сталкиваются с проблемами неэффективной валидации и зависимостью от вручную подобранных начальных данных, что вносит субъективность.

Масштабирование с помощью фильтрации на базе моделей

Ранние датасеты, например C4 и Pile, заложили основы, но последние, такие как RefinedWeb, Dolma и DCLM, достигли масштаба триллионов токенов. Фильтрация, основанная на моделях, стала популярной в больших корпусах, так как позволяет улучшать качество данных и повышать производительность LLM на различных тестах.

Новшества в валидации и фильтрации данных

Несмотря на прогресс, текущие методы валидации остаются затратными и неэффективными, а стандарты выбора начальных данных нечеткие. Новые датасеты, такие как FineWeb-edu и Ultra-FineWeb, улучшили результаты моделей, используя несколько классификаторов для перекрестной проверки качества данных. Эти датасеты превосходят предыдущие по тестам MMLU, ARC и C-Eval, улучшая понимание английского и китайского языков. Некоторые исследования предлагают применять сами LLM для многомерной оценки данных через подсказки или использовать показатели перплексии на уровне токенов, чтобы снизить вычислительные затраты и повысить качество.

Представление датасета Ultra-FineWeb

Исследователи из ModelBest Inc., Университета Цинхуа и Сучжоуского университета разработали эффективный конвейер фильтрации данных для оптимизации обучения LLM. Их метод включает стратегию верификации, использующую почти обученную LLM для оценки новых данных по приросту производительности на финальных этапах обучения, что значительно снижает вычислительные затраты. Легковесный классификатор на базе fastText ускоряет фильтрацию с высокой точностью.

Данный конвейер применили к датасетам FineWeb и Chinese FineWeb, создав Ultra-FineWeb, содержащий 1 триллион английских и 120 миллиардов китайских токенов. Модели, обученные на Ultra-FineWeb, показали значительные улучшения, подтверждая эффективность конвейера в повышении качества данных и эффективности обучения.

Детали эффективного конвейера фильтрации

Конвейер начинается с недорогой стратегии верификации для выбора надежных начальных образцов из кандидатов. Положительные образцы берутся из аннотаций LLM, курируемых датасетов, учебников и сгенерированного контента, а отрицательные — из разнообразных корпусов. Обучение классификатора сосредоточено на качественном выборе начальных данных без переобучения. Масштабируемый классификатор fastText обеспечивает конкурентоспособную производительность при значительно меньших затратах на инференс по сравнению с методами на базе LLM. Предобработка данных гарантирует сбалансированность и чистоту входных данных.

Обучение моделей и оценка

Модели обучались с использованием MegatronLM и архитектуры MiniCPM-1.2 B на 100 миллиардах токенов. Оценка с помощью Lighteval по английским и китайским бенчмаркам показала, что модели, обученные на Ultra-FineWeb, стабильно превосходят модели на FineWeb и FineWeb-edu как по отдельности, так и в смешанных языковых условиях. Ultra-FineWeb-en достиг наивысших средних результатов по английским тестам, а Ultra-FineWeb-zh улучшил показатели по китайским задачам. Исследования абляции подтвердили сбалансированность длины токенов и преимущества эффективной фильтрации, подчеркивая высокое качество датасета и его влияние на производительность моделей.

Итоги

Ultra-FineWeb — это высококачественный многоязычный датасет с примерно 1 триллионом английских и 120 миллиардами китайских токенов. Построенный на базе FineWeb, он использует инновационный и эффективный конвейер фильтрации данных с классификатором fastText и недорогой стратегией верификации. Такой подход улучшает точность фильтрации, снижает зависимость от ручного выбора начальных данных и обеспечивает стабильную производительность при минимальных вычислительных затратах. Эксперименты демонстрируют постоянный рост результатов по бенчмаркам, предоставляя ценные идеи для оптимизации качества данных в будущих обучениях LLM.

Для подробностей ознакомьтесь с оригинальной статьей и датасетом, а также следите за исследователями в Twitter или присоединяйтесь к сообществу ML SubReddit с более чем 90 тысячами участников.