はじめに
KaggleのTPSコンペのデータをAzure Machine LearningのAuto MLを使ってモデルを作成してみようと思います。
前回使用した『デザイナー』はブロックを用いて、コードを書かずに学習モデルを作成することができましたが、『Auto ML』も同じく1行も書かずにできます。
デザイナーとの違いは、パイプラインを作成せずとも最適な機械学習アルゴリズムの選択からモデルの作成まですべて自動的にできる!という点があります。
それではさっそく使ってみようと思います!
ジョブの作成~実行まで
ワークスペースやクラスターの作成などはこちらの記事をご覧ください。
また、今回使用するデータはTabular Playground Series - Aug 2022からダウンロードしました。
新規ジョブ作成
はじめにAzure Mのワークスペースを開き、「自動ML」を選択します。
そして、左上の「新規の自動機械学習ジョブ」から新しいジョブを作成します。
データの選択・作成
以前作成したデータセットがある場合はこのように表示されるので、これを選択します。
データセットがない場合は「作成」をクリックし、
「名前」を入力して次に進みます。
そしてデータソースの場所とデータストアの選択を行ったら、ファイルのアップロードを行います。
次に設定を行います。
データセットに複数行のデータが含まれている場合はチェックを入れます。
そして、学習で使うデータを選択します。
各項目のデータ型を変更したい場合は、この時点で操作することができます。
今回は特に何も変更せずに進めました。
最後にデータセットの内容を確認し、問題なければ作成をします。
ジョブの設定
続いてジョブの実験名・ターゲット列の入力と、コンピューティングクラスターを選択して新規作成を行います。ターゲット列には「failure」を入力しました。
今度は機械学習アルゴリズムの選択ができます。
先ほど入力したターゲット列から自動で選んでくれます。
もし異なる場合はここで変更しておきましょう。
今回のTPSコンペでは製品が故障しているかどうかを予測するものなので、『分類』を選択します。
そして検証方法とテストデータの設定を行います。
今回は『テスト分類』を選択し、訓練データを60%・テストデータを30%に分割するようにしました。
これで「終了」をクリックすればモデルが作成されます!
これで実行完了まで待ちましょう…。
実行結果
実験が終わったので、作成されたモデルの詳細を見てみましょう!
ちなみに実行時間は1時間7分57.66秒かかりました。
「モデル」タグに移ると、作成されたモデルの一覧が評価が高い順に並んでいます。
一番良かったものには「説明の表示」というのが見れます。
説明(プレビュー)
予測の際に重要な特徴量やデータの分布などを見ることができます。
メトリック
評価の結果をグラフで表示されます。
データ変換
ここではトレーニングの際の前処理や特徴量エンジニアリングの流れなどを見ることができます。
まとめ
今回はTPSコンペのデータを使って、AUto ML上でモデルの作成を行いました。
機械学習アルゴリズムの選択から特徴量の重要性まですべて自動でやってくれたので、実際にコンペに参加する際に、EDAとして参考にできそうだと思いました!