“`html
Оценка и улучшение производительности моделей для табличных данных с помощью XGBoost и ансамблей
При решении реальных задач в области науки о данных выбор модели играет решающую роль. Модели ансамблей деревьев, такие как XGBoost, традиционно предпочтительны для классификации и регрессии табличных данных. Однако недавно появились глубокие модели, утверждающие сверхпревосходство над традиционными моделями на определенных наборах данных. Несмотря на успех, применение глубокого обучения к табличным данным представляет вызовы из-за разреженности данных, смешанных типов признаков и недостатка прозрачности.
Практические решения и ценность
Исследователи из IT AI Group в Intel провели тщательное сравнение глубоких моделей с XGBoost для табличных данных, чтобы определить их эффективность. Оценивая производительность на различных наборах данных, они обнаружили, что XGBoost последовательно превосходит глубокие модели, даже на наборах данных, изначально использованных для демонстрации превосходства глубоких моделей. Кроме того, XGBoost требовал значительно меньше настройки гиперпараметров. Однако комбинирование глубоких моделей с XGBoost в ансамбле давало лучшие результаты, превосходя как самостоятельный XGBoost, так и глубокие модели. Это исследование подчеркивает, что несмотря на прогресс в глубоком обучении, XGBoost остается превосходным и эффективным выбором для задач с табличными данными.
Традиционно градиентно-усиливающие деревья решений (GBDT), такие как XGBoost, LightGBM и CatBoost, доминируют в приложениях табличных данных из-за их высокой производительности. Однако недавние исследования представили глубокие модели, разработанные специально для табличных данных, такие как TabNet, NODE, DNF-Net и 1D-CNN, которые обещают превзойти традиционные методы. Ансамблирование, объединение нескольких моделей, может дополнительно улучшить производительность. Исследователи оценили эти глубокие модели и GBDT на разнообразных наборах данных и обнаружили, что XGBoost в целом превосходит, но комбинирование глубоких моделей с XGBoost дает лучшие результаты.
Исследование тщательно сравнило глубокие модели и традиционные алгоритмы, такие как XGBoost, на 11 различных табличных наборах данных. Оценка критериев включала точность, эффективность обучения и вывода, а также время, необходимое для настройки гиперпараметров. Результаты показали, что XGBoost последовательно превосходил глубокие модели на большинстве наборов данных, не являющихся частью их исходных обучающих наборов. В частности, XGBoost достиг превосходной производительности на 8 из 11 наборов данных, демонстрируя свою универсальность в различных областях. В то же время глубокие модели показали лучшую производительность только на наборах данных, для которых они изначально разрабатывались, что указывает на их склонность к переобучению на исходных обучающих данных.
Кроме того, исследование рассмотрело эффективность объединения глубоких моделей с XGBoost в ансамблях. Было замечено, что ансамбли, объединяющие как глубокие модели, так и XGBoost, часто давали превосходные результаты по сравнению с отдельными моделями или ансамблями классических моделей машинного обучения, таких как SVM и CatBoost. Это сотрудничество подчеркивает дополняющие силы глубокого обучения и моделей на основе деревьев, где глубокие сети захватывают сложные закономерности, а XGBoost обеспечивает надежную, обобщенную производительность. Несмотря на вычислительные преимущества глубоких моделей, XGBoost оказался значительно быстрее и эффективнее в оптимизации гиперпараметров, сходясь к оптимальной производительности с меньшим количеством итераций и вычислительных ресурсов. В целом, результаты подчеркивают необходимость тщательного выбора модели и преимущества объединения различных алгоритмических подходов для использования их уникальных сильных сторон в различных задачах с табличными данными.
Исследование оценило производительность глубоких моделей на табличных наборах данных и обнаружило, что они в целом менее эффективны, чем XGBoost на наборах данных вне их исходных исследований. Ансамбль глубоких моделей и XGBoost показал лучшие результаты по сравнению с отдельными моделями или классическими ансамблями, что подчеркивает преимущества объединения методов. XGBoost был более прост в оптимизации и эффективнее, что делает его предпочтительным в условиях ограниченного времени. Однако интеграция глубоких моделей может улучшить производительность. Будущие исследования должны тестировать модели на разнообразных наборах данных и сосредотачиваться на разработке глубоких моделей, которые легче оптимизировать и могут лучше конкурировать с XGBoost.
Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.
Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему сообществу в Reddit.
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Beyond Deep Learning: Evaluating and Enhancing Model Performance for Tabular Data with XGBoost and Ensembles.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.
Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!
“`