NVIDIA XGBoost 3.0: Обучение моделей на терабайтных данных с помощью суперчипа Grace Hopper
NVIDIA XGBoost 3.0 теперь поддерживает обучение моделей GBDT на терабайтных данных с использованием одного суперчипа Grace Hopper, обеспечивая высокую скорость и экономию для предприятий.
Обучение на терабайтных данных с XGBoost 3.0
NVIDIA представила революционное обновление в масштабируемом машинном обучении — XGBoost 3.0, способный обучать модели градиентного бустинга деревьев решений (GBDT) на данных от гигабайт до 1 терабайта (ТБ) на одном суперчипе GH200 Grace Hopper. Это значительно упрощает работу с огромными наборами данных для таких задач, как обнаружение мошенничества, моделирование кредитного риска и алгоритмическая торговля.
Преодоление ограничений памяти GPU
Ключевым нововведением стала функция External-Memory Quantile DMatrix в XGBoost 3.0. Ранее обучение на GPU ограничивалось объемом видеопамяти, что вынуждало использовать сложные мульти-узловые системы или ограничивать размер данных. Используя когерентную архитектуру памяти суперчипа Grace Hopper и сверхскоростной NVLink-C2C с пропускной способностью 900 ГБ/с, XGBoost 3.0 передает предварительно разбитые и сжатые данные напрямую из оперативной памяти хоста в GPU. Это устраняет узкие места и необходимость в серверах с огромным объемом RAM или больших кластерах GPU.
Практические преимущества: скорость, экономия и простота
Такие организации, как Королевский банк Канады (RBC), достигли ускорения обучения моделей до 16 раз и снижения общей стоимости владения на 94% благодаря использованию GPU-ускоренных пайплайнов XGBoost. Это особенно важно для рабочих процессов с постоянной настройкой моделей и изменяющимися объемами данных, позволяя быстрее оптимизировать признаки и масштабироваться.
Принцип работы внешней памяти
- External-Memory Quantile DMatrix: Предварительно разбивает признаки на квантильные корзины, сжимает данные в оперативной памяти хоста и передает по необходимости, сохраняя точность и снижая нагрузку на память GPU.
- Масштабирование на одном чипе: Суперчип GH200 с 80 ГБ HBM3 GPU RAM и 480 ГБ LPDDR5X системной RAM теперь может работать с терабайтными наборами данных, что ранее требовало мульти-GPU кластеров.
- Простая интеграция: Для команд, работающих с RAPIDS, активация нового метода — это простой процесс с минимальными изменениями в коде.
Технические рекомендации
- Используйте
grow_policy='depthwise'для оптимальной производительности построения деревьев с внешней памятью. - Запускайте на CUDA 12.8+ с драйвером, поддерживающим HMM, для полной поддержки Grace Hopper.
- Форма данных важна: количество строк (меток) является основным ограничителем масштабируемости; как широкие, так и высокие таблицы показывают сопоставимую производительность на GPU.
Другие улучшения в XGBoost 3.0
- Экспериментальная поддержка распределенной внешней памяти в GPU-кластерах.
- Снижение требований к памяти и ускорение инициализации, особенно для преимущественно плотных данных.
- Поддержка категориальных признаков, квантильной регрессии и объяснимости SHAP в режиме внешней памяти.
Влияние на индустрию
Возможность обучения GBDT на терабайтных данных на одном чипе делает масштабное машинное обучение более доступным для финансовых и корпоративных пользователей. Это ускоряет циклы итераций, снижает затраты и упрощает IT-инфраструктуру.
Больше информации доступно на странице технических деталей и в нашем GitHub с учебными материалами, кодом и ноутбуками. Следите за нами в Twitter и присоединяйтесь к сообществу ML SubReddit.
Switch Language
Read this article in English