TabArena: революция в бенчмаркинге табличного машинного обучения с масштабируемой воспроизводимостью и ансамблированием

Значение бенчмаркинга в табличном машинном обучении

Табличное машинное обучение направлено на создание моделей, которые обучаются на структурированных данных, организованных в строки и столбцы, что характерно для таких отраслей, как здравоохранение и финансы, где важны точность и интерпретируемость моделей. Популярные техники включают градиентный бустинг и нейронные сети, а недавно появились и фундаментальные модели, предназначенные для эффективной работы с табличными данными. По мере появления новых моделей становится критически важным справедливое и комплексное сравнение их производительности.

Проблемы с существующими бенчмарками

Существующие бенчмарки часто устарели из-за использования старых датасетов с лицензионными ограничениями или синтетических задач, не отражающих реальные сценарии. Проблемы с утечками данных и отсутствием поддержки приводят к быстрой устаревшести бенчмарков, что снижает надежность измерений производительности и не соответствует развитию табличного машинного обучения.

Ограничения текущих инструментов бенчмаркинга

Многие инструменты основываются на автоматическом выборе датасетов и минимальном контроле, что вызывает непоследовательную оценку из-за проблем с качеством данных, дублированием или ошибками препроцессинга. Часто используются только стандартные настройки моделей, без тщательной настройки гиперпараметров и ансамблирования, что ограничивает воспроизводимость и понимание работы моделей в реальных условиях. Часто не указываются ключевые детали реализации, а протоколы валидации узки.

Представляем TabArena: динамическая платформа для бенчмаркинга

TabArena — это постоянно поддерживаемая система бенчмаркинга, разработанная исследователями из AWS, Университета Фрайбурга, INRIA Париж и других учреждений. В отличие от статичных бенчмарков, TabArena версионируется, развивается сообществом и регулярно обновляется. Платформа стартовала с 51 тщательно подобранным датасетом и 16 качественно реализованными моделями машинного обучения, предоставляя надежную и постоянно эволюционирующую среду для оценки моделей табличного машинного обучения.

Основные принципы TabArena

TabArena построена на трех столпах: надежная реализация моделей, комплексная настройка гиперпараметров и строгая оценка. Все модели используют AutoGluon в едином фреймворке с поддержкой препроцессинга, кросс-валидации, отслеживания метрик и ансамблирования. Для настройки гиперпараметров проверяется до 200 конфигураций для большинства моделей, кроме TabICL и TabDPT, которые тестируются только для обучения в контексте. Валидация проводится с помощью 8-кратной кросс-валидации и ансамблирования нескольких прогонов. Фундаментальные модели обучаются на объединенных тренировочно-валидационных данных согласно рекомендациям разработчиков. Каждый запуск ограничен по времени — один час на стандартном оборудовании.

Масштабная оценка производительности

Результаты TabArena основаны на примерно 25 миллионах оценок моделей. Анализ показал, что ансамблирование значительно улучшает производительность всех типов моделей. Градиентный бустинг остается сильным, однако глубинные модели с настройкой и ансамблями показывают сопоставимые или лучшие результаты. AutoGluon 1.3 продемонстрировал впечатляющие показатели при бюджете обучения в 4 часа. Фундаментальные модели, такие как TabPFNv2 и TabICL, выделились на небольших датасетах благодаря эффективному обучению в контексте без настройки. Ансамбли из разных моделей достигли передовых результатов, подчеркивая важность разнообразия моделей и методов ансамблирования.

Значение TabArena для сообщества ML

TabArena закрывает важную брешь в надежном и актуальном бенчмаркинге табличного машинного обучения, решая вопросы воспроизводимости, курирования данных и комплексной оценки. Это значительный вклад для исследователей и практиков, позволяющий развивать и оценивать модели на табличных данных с прозрачностью и надежностью.

Подробности доступны в статье и на GitHub.