Amazon SageMaker Autopilotは、表形式データセット用のAutoMLです。
公式
https://aws.amazon.com/jp/sagemaker/autopilot/
SageMaker Autopilotは様々な方法で使用できます。
自動、手動、プログラミングなしでSageMaker Studioを使う、またはAWS SDKの使用など。
この記事では、kaggleのHouse PricesでSageMaker Autopilotがどれくらいの精度が出せるのか検証してみます。
kaggle House Prices
https://www.kaggle.com/c/house-prices-advanced-regression-techniques
手順
データをダウンロードします。
https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data
S3のバケットにアップロードします。
https://aws.amazon.com/jp/s3/
SageMakerを開き、
SageMaker Studioを開きます。
参考:
https://qiita.com/SatoshiGachiFujimoto/items/eecb66f5d57cb50324c7
SageMaker Studioを開いたら画面左のフラスコマークをクリックして、
画面右の「Create Experiment」
をクリックします。
Target attribute nameに「SalePrice」、その他必要な情報を入力します。
今回のHouse Pricesは回帰問題なので
「Linear Regression」
を選択して、
右下の
「Create Experiment」
をクリック。
Objective metricは2019年12月17日現在、MSEしか選択できません。
学習が進むので、Trialsの中から、Objective(MSE)が最小のものを選択して、
エンドポイントを作成します。
エンドポイントを作成したら、SageMakerの「推論」から「バッチ変換」を選択し、
「バッチ変換ジョブの作成」をクリックします。
必要な情報を入力し、
コンテンツタイプ - オプションに
「text/csv」
と記入します。
後は「ジョブの作成」をクリックして待つだけです。
出力結果をkaggleにサブミットした結果は
0.13059で5740チーム中2155位でした。
こちらの方がGoogle AutoML Tablesで行った実験結果を上回っていました。
SageMaker Autopilotの今後が楽しみですね。