概要
IBM Cloud Pak for Data as a Service(CP4DaaS)のWatson Machine Learningには自動機械学習のサービスとしてAutoAIがありますが、少し前から時系列データ(timeseries)にも対応していました。しかしながら、列として有効なのは時系列の列とターゲット列の2つだけで、他の列は無視されていました。例えば日毎の売上数データがあったとして、有効なのは日付の列と売上数の列だけで、さらに稼働日フラグの列や気温の列、キャンペーン情報の列などがあってもトレーニング時には考慮されない・・という状況でしたが、2022/7に新たに「Supporting Features」すなわち予測を「支援する特徴量」として考慮することができるようになっています!ので改めて、時系列データをAutoAIを用いてトレーニングし、需要予測を行う手順を記述します。
手順
トレーニング用データの入手
今回は、サンプルデータとしてKaggleにアップされているWalmartのコンペで使われていた時系列データを使用しました。このうち使用したのは週ごとの売上数を店舗別、部門別に縦持ちで持っている売上履歴(train.csv)と、各店舗における週ごとの気温、稼働日、値下げ率の1~5(features.csv)の2つのファイルです。
データ前処理
前述のデータはそのままではAutoAIに食わせられません。そこで、今回はPythonを使ってサクッと加工しました。このあたりはCP4DaaSではJupyter Notebookが使えるWatson Studioのお仕事です。そのコーディングはこちらを参照してください。
出来上がったトレーニングデータはこのような構成になっています。ここではシンプルにするために、Storeは1のみに絞りました。
AutoAIでのトレーニング
では、いよいよAutoAIでのトレーニングを行ってみます。
プロジェクトの「新規資産」からAutoAIを選択します。
AutoAIのトレーニングに任意の名前を付けて、加工済みのデータ(train_merged.csv)を指定します。これは、前述のNotebookを使って加工したデータの場合は「プロジェクトから選択」で指定できます。
すると、「時系列予測を作成しますか?」と出るので、はいを選択します。
次に、「予測列」を選択するところで、今回は3つの部門でそれぞれ予測するように設定してみます。
次に、「日付/時刻列」にはDate列を指定します。
また、「予測範囲」は8ステップ先としました。このデータの場合は週ごとの間隔になっているので、8週間先までを予測範囲とすることになります。
その次に、「エクスペリメント設定」を押すと、詳細な設定項目の画面に遷移します。
ここでは、データソースのビューにて、Store列の選択を外し、TemparetureからIsHolidayの列を選択、
その下にある週売上_4以降の列のチェックを外します。(4から99まであるので、最初に一番上のチェックボックスで全部の列をまとめて選択を外してからの方が効率的でしょう)
これは、気温や稼働日、値下げ率のような「Supporting Features」を予測モデルのトレーニング時に加味することを意味しています。ここまでできたら、エクスペリメントの実行を行います。
ここでは4分で完了しました。
下にスクロールすると、3つのモデルが選定されて、予測パイプラインが生成されていることがわかります。
一番上のもの(下図の場合、パイプライン8)を選択すると、その予測状況が確認できます。
実際の売上データは紫色のラインで、予測モデルによる売上数は緑のラインとして表示されています。点線になっている部分は向こう8週間の予測値です(実績はまだないので、紫色のラインはありません)。
AutoAIでトレーニングしたモデルは、この後APIとして呼び出しができるようになっていますが、そこは真新しいトピックではないので当記事では割愛します。
まとめ
時系列データを用いた予測分析を自動化するAutoAIがアップデートされて、より実用的になってきました。ぜひ一度お試しいただければと思います。お試しはライトプランを用いて無償でできますので、その具体的な手順は下記の「始めてみる」記事をご参照ください。
参考リンク
mediumの記事
CP4D as a Serviceのマニュアル
Cloud Pak for Data as a Serviceを始めてみる