Amazon представляет Mitra: революция в табличном машинном обучении с помощью синтетических приоров

Mitra: новая фундаментальная модель для табличных данных

Исследователи Amazon представили Mitra — инновационную фундаментальную модель, специально разработанную для анализа табличных данных. В отличие от традиционных подходов, требующих создания уникальной модели для каждого набора данных, Mitra использует обучение в контексте (in-context learning, ICL) в сочетании с предобучением на синтетических данных, достигая передовых результатов на различных бенчмарках по табличному машинному обучению. Модель интегрирована в AutoGluon 1.4 и предназначена для устойчивой генерализации в таких областях, как здравоохранение, финансы, электронная коммерция и наука.

Синтетические приоры — основа Mitra

Уникальность Mitra заключается в ее предобучении исключительно на синтетических данных. Вместо того чтобы полагаться на ограниченные и разнородные реальные табличные данные, исследователи разработали системный метод генерации и смешивания разнообразных синтетических приоров. Этот подход вдохновлен предобучением больших языковых моделей на обширных и разнообразных текстовых корпусах.

Ключевые элементы предобучения Mitra на синтетических приорах:

Смесь приоров: синтетические наборы данных создаются из различных распределений, включая структурные причинно-следственные модели и алгоритмы на основе деревьев, такие как случайные леса и градиентный бустинг.
Генерализация: широкий и качественный набор приоров позволяет модели изучать закономерности, применимые к множеству неизвестных реальных наборов данных.
Структура задачи: предобучение включает задачи с поддерживающим и запросным наборами, что дает возможность адаптироваться к новым задачам с помощью обучения в контексте без обновления параметров для каждой таблицы.

Обучение в контексте и дообучение

Традиционные методы табличного машинного обучения, такие как XGBoost и случайные леса, требуют обучения новой модели для каждой задачи или распределения данных. Mitra использует обучение в контексте: имея небольшой набор размеченных примеров (support set), модель способна точно предсказывать на новых, невидимых данных (query set) как задачи классификации, так и регрессии, без повторного обучения.

При необходимости пользователи могут дообучить модель, чтобы адаптировать ее к конкретным задачам.

Архитектурные инновации для табличных данных

Mitra применяет двухмерный механизм внимания, охватывающий строки и признаки, расширяя идеи трансформеров, но специально адаптированный для табличных данных. Это позволяет:

Обрабатывать таблицы разного размера и разнообразные типы признаков.
Захватывать сложные взаимосвязи между столбцами и записями.
Поддерживать неоднородные данные напрямую, что является ключевой задачей в табличном машинном обучении.

Результаты бенчмарков и практические преимущества

Mitra достигает передовых результатов на популярных бенчмарках: TabRepo, TabZilla, AutoML Benchmark (AMLB) и TabArena. Особенно хорошо модель показывает себя на небольших и средних наборах данных (менее 5000 образцов и до 100 признаков), превосходя сильные базовые методы, такие как TabPFNv2, TabICL, CatBoost и предыдущие версии AutoGluon в задачах классификации и регрессии.

Удобство использования и доступность

Доступна в AutoGluon 1.4 как открытая модель, готовая к интеграции в существующие ML-пайплайны.
Оптимизирована для работы на GPU и CPU.
Веса модели опубликованы на Hugging Face для свободного использования в задачах классификации и регрессии.

Влияние и перспективы

Благодаря обучению на смешанных синтетических приорах Mitra переносит возможности фундаментальных моделей в область табличного машинного обучения. Это ускорит рабочие процессы, уменьшит необходимость создавать уникальные модели для каждой задачи, обеспечит эффективный трансфер знаний между доменами и станет основой для более адаптивных табличных моделей в будущем.

Начало работы

AutoGluon 1.4 уже включает Mitra для использования из коробки. Открытые веса и подробная документация доступны для задач классификации и регрессии. Исследователи и практики приглашаются к экспериментам и развитию этой новой платформы для табличного прогнозирования.

Для подробностей посетите блог Amazon Science по ссылке в оригинальном анонсе.