【Azure】kaggleコンペで使うAzure AutoMLについて

Last updated at 2022-12-03Posted at 2022-12-03

はじめに

この記事は CDLE youth Advent Calendar 2022 4日目の記事です。
先日 CDLE youth で Kaggle のHome Credit Default Risk に AutoML で参戦したのでそのときの記録を。
あまり整理されていませんが GitHub リポジトリはこちら

モチベーション

今回参加した Home Credit Default Risk のコンペでは、債務不履行の予測を行います。Discussions や Code を眺めて感じたのは、コンペで上位に食い込むには新しい特徴量を作成する必要があり、それを求めるには専門知識が必要であるということです。そんな世界は間違っている！！！ということで 専門知識がなくても高いスコアを出したい！ というのが今回のモチベーションです。

Microsoft Azure

Azure とは Microsoft のクラウドコンピューティングサービスです。その機能の一つに自動 ML があります。これは、データセットと予測したいカラムなどを指定することで、自動で予測に適したモデルを作成してくれるというものです。ちょうど私が Azure の資格を取得したばかりだったので、Azure の自動 ML を使用して専門知識なしでよいスコアが得られないか、実験を行いました。目標は、「Azure が勝手にメダル圏内のモデル作ってくれる」です。
下は正攻法（普通にプログラムを書いて分析）と自動 ML の作業量を比較した図です。自動 ML が圧倒的にラクそうに見えます。