NVIDIA XGBoost 3.0: Обучение моделей на терабайтных данных с помощью суперчипа Grace Hopper

Обучение на терабайтных данных с XGBoost 3.0

NVIDIA представила революционное обновление в масштабируемом машинном обучении — XGBoost 3.0, способный обучать модели градиентного бустинга деревьев решений (GBDT) на данных от гигабайт до 1 терабайта (ТБ) на одном суперчипе GH200 Grace Hopper. Это значительно упрощает работу с огромными наборами данных для таких задач, как обнаружение мошенничества, моделирование кредитного риска и алгоритмическая торговля.

Преодоление ограничений памяти GPU

Ключевым нововведением стала функция External-Memory Quantile DMatrix в XGBoost 3.0. Ранее обучение на GPU ограничивалось объемом видеопамяти, что вынуждало использовать сложные мульти-узловые системы или ограничивать размер данных. Используя когерентную архитектуру памяти суперчипа Grace Hopper и сверхскоростной NVLink-C2C с пропускной способностью 900 ГБ/с, XGBoost 3.0 передает предварительно разбитые и сжатые данные напрямую из оперативной памяти хоста в GPU. Это устраняет узкие места и необходимость в серверах с огромным объемом RAM или больших кластерах GPU.

Практические преимущества: скорость, экономия и простота

Такие организации, как Королевский банк Канады (RBC), достигли ускорения обучения моделей до 16 раз и снижения общей стоимости владения на 94% благодаря использованию GPU-ускоренных пайплайнов XGBoost. Это особенно важно для рабочих процессов с постоянной настройкой моделей и изменяющимися объемами данных, позволяя быстрее оптимизировать признаки и масштабироваться.

Принцип работы внешней памяти

External-Memory Quantile DMatrix: Предварительно разбивает признаки на квантильные корзины, сжимает данные в оперативной памяти хоста и передает по необходимости, сохраняя точность и снижая нагрузку на память GPU.
Масштабирование на одном чипе: Суперчип GH200 с 80 ГБ HBM3 GPU RAM и 480 ГБ LPDDR5X системной RAM теперь может работать с терабайтными наборами данных, что ранее требовало мульти-GPU кластеров.
Простая интеграция: Для команд, работающих с RAPIDS, активация нового метода — это простой процесс с минимальными изменениями в коде.

Технические рекомендации

Используйте grow_policy='depthwise' для оптимальной производительности построения деревьев с внешней памятью.
Запускайте на CUDA 12.8+ с драйвером, поддерживающим HMM, для полной поддержки Grace Hopper.
Форма данных важна: количество строк (меток) является основным ограничителем масштабируемости; как широкие, так и высокие таблицы показывают сопоставимую производительность на GPU.

Другие улучшения в XGBoost 3.0

Экспериментальная поддержка распределенной внешней памяти в GPU-кластерах.
Снижение требований к памяти и ускорение инициализации, особенно для преимущественно плотных данных.
Поддержка категориальных признаков, квантильной регрессии и объяснимости SHAP в режиме внешней памяти.

Влияние на индустрию

Возможность обучения GBDT на терабайтных данных на одном чипе делает масштабное машинное обучение более доступным для финансовых и корпоративных пользователей. Это ускоряет циклы итераций, снижает затраты и упрощает IT-инфраструктуру.

Больше информации доступно на странице технических деталей и в нашем GitHub с учебными материалами, кодом и ноутбуками. Следите за нами в Twitter и присоединяйтесь к сообществу ML SubReddit.