前回行ったこと
前回の記事では、Aquarium というH2O.ai社が提供しているクラウド環境を使って Driverless AI を起動してみました。
DriverlessAI -MLの自動化ツール- まずは起動から!
今回は、起動した Driverless AI のインスタンスに初期状態で登録されているデータを使って機械学習行ってみようと思います。
こちらの公式チュートリアルを参考にしています。
Time Series Tutorial - Retail Sales Forecasting
Driverless AI 起動 & データ確認
まずは Driverless AI の起動画面から。
起動時は Datasets ページが表示されるようになっています。
ここはデータセットの置き場所で、CSV形式のファイルを扱うことができます。
アップロード済みのデータをクリックすると、それぞれのデータに対するアクションを選択できます。
今回は事前に用意されているデータを使います。
初期段階でアップロードされているデータは以下の2つ
- walmart_tss_small_train.csv
- walmart_tss_small_test.csv
2つともWalmartの売上データです。
1つ目が学習用のデータ、2つ目がテスト用のデータです。
Store | Dept | Date | Weekly Sales | MarkDown1 | … | MarkDown5 | IsHoliday | sample_weight |
---|---|---|---|---|---|---|---|---|
店舗番号 | 部門 | 日付 | 週毎の売上 | 値下げ | 休日 |
MarkDown は全て値下げに関連するデータです。
マスクされてしまっているので、中身はわかりません。
sample_weight はH2Oが独自に追加しているようです。
Driverless AIの機能で重み付けをするカラムを指定できるので、そこで指定します。
元データはこちらから
Walmart Recruiting - Store Sales Forecasting
学習開始
学習用データの一番右端にある Click for Actions をクリックすると、データに対して実行できるアクションが選択できます。
学習を始める時は、アクションの中の PREDICT を選択。
Driverless AI のツアーしますよ! と表示されますが、今回はチュートリアルを見ているので NO を選択。
学習を始めるために、予測したいカラムや時系列を表すカラムを設定します。
設定画面はこんな感じです。
学習用に指定したデータセットの名前や設定用のボタンがいくつか用意されています。
Select target column が点滅しているのでそこをクリックします。
すると、カラム名の一覧が表示されます。
ここでは、予測対象のカラムを設定します。
今回は週毎の売上数量を予測したいので、 Weekly_Sales を選択します。
ターゲットカラムの表示が Weekly_Sales に変わりました。
設定と同時に表示もいくつか増えました。
今回は、時系列データを扱った機械学習を行います。
なので、TIME COLUMN を設定します。
先程、ターゲットカラムを設定した右下に [OFF] になっている項目があります。
ここをクリックするとターゲットを選択したときのようにカラム名の一覧が表示されます。
このデータでは Date が日付データになっているのでこのカラムを選択します。
次は、重みをつけるカラムを選択します。
このカラムは H2O.ai社で付け加えられたカラムのようです。 (元データには存在しなかった)
なので、何に対する重みかはわかりませんでした。
ターゲットカラムの下に表示されている WEIGHT COLUMN の ➖➖ をクリックするとカラム一覧が表示されます。
今回は sample_weihgt を指定しています。
次に、TIME GLOUP COLUMN を設定します。
一番右のスペースの一番上に表示されている AUTO をクリックします。
TIME GLOUP COLUMN を設定したところから少し左を見ると TEST DATASET の項目があります。
テスト用のデータ (walmart_tts_small_test.csv) をここ設定します。
中央部の下にある SCORER の設定を変更します。
今回は、R2 を指定します。
標準の状態だと、2時間以内に終わらない可能性もあるので、精度と時間を少しだけ下げます。
あとは LAUNCH EXPERIMENT をクリックするだけです!
次回は、モデルの確認やテストデータに対する予測について見ていこうと思います。
今回の内容と同じように時系列データを扱った動画がありました!
AI予測分析ツール「Driverless AI」商品需要予測を自動で最適化
こちらを見るとわかりやすいかと思います。
使っているデータは違いますが、操作方法はほとんど同じです。