5-12 自動数値[モデル作成タブ]
1.ノードの目的
搭載されているすべての数値予測モデルを評価し、最も精度の高いN個のアンサンブル(平均)によってスコアリングします(Autoモデリング)。
2.解説動画(60秒)
3.クイックスタート
コンビニ特定店舗の清涼飲料部門の実績とその要因(特売有無、近隣大学開講情報、天候、曜日、過去8日間の階差)のデータです。11月22日が現在で、その先7日間の実績は欠損値。特売予定や天気予報は値が含まれています。
*サンプルデータ(CSV)は[5.参考情報]からダウンロードできます。
[可変長ファイル]で[データ型]タブを開きます。最初に[値の読み込み]ボタンを押して値を認識させます(赤枠)。予測の入出力を決める[ロール]を設定します。[日付]を[レコードID]へ(青枠)。予測対象である[店舗1]の実績を[対象]に変更します(緑枠)。
[自動数値]を編集して設定を確認します。
[エクスパート]タブでは利用するモデルを選択できます。最大17種類を実行可能ですが計算時間を考慮して初期設定の12モデルで[実行]します。
モデルが生成されました。モデルナゲットを右クリックで編集します。
予測と実績の相関が最も高い5つのモデルが選択されました。採用モデルの数は作成時に設定可能です。
結果を確認するために[テーブル]と[時系列グラフ]をモデルナゲットから接続します。
[テーブル]を実行します。
赤枠が実績で最後の7日間は未来なので欠損値(NULL)になっています。
青枠が予測値で、5つの精度上位モデルをアンサンブル(平均)しています。
緑枠は標準誤差です。
4.Tips
N日前までの階差を作成する
階差の作成はノードリファレンス3-11(時系列)加工ノードを参照してください。
日付から曜日データを作成する
一度[データ型]で値を読み込んだ後、[データ分類]で1を日曜日、7を土曜日に置き換えます。
時系列予測の精度MAPE(絶対パーセント誤差)を作成する
モデルナゲットに[フィールド作成]と[レコード集計][テーブル]を接続します。
プラス・マイナス6.1%の誤差を考慮するモデルだと確認できました。
MAPEはノードリファレンス3-11(時系列)加工ノードを参照してください。
95%予測上限と下限を自分で作る
交差検証(クロスバリデーション)
今回のような時系列予測では利用しませんが、レコード数が限定的な予測モデルの汎化能力を高める場合に利用します。
交差検証(クロスバリデーション)の目的は次の記事をご覧ください。
モデルパラメータ変更やアンサンブルについて解説した記事
5.参考情報
利用データ
右クリックでリンク先を保存してください。
ノードのヘルプ
SPSS Modeler 逆引きストリーム集(データ加工)
SPSS Modeler ノードリファレンス目次