#はじめに
トレーニングデータ、テストデータに分割するときに、テストデータにトレーニングデータを含ませないのは機械学習の基本です。
しかし、時系列データだとその間違いは気付かないうちに起きやすいので、簡単に図でまとめてみました。
今回は、予測対象日から1日前〜3日前のデータを用いて予測するというケースについて考えます。
分かりやすさを考え、予測対象のデータ(目的変数)と予測に使うデータ(説明変数)は別種類のデータとし、さらに説明変数を1種類としました。
#ダメな手順の例
- 予測に使うデータ(説明変数)を1〜3日分ずらし、1日前〜3日前の説明変数を作成する
- トレーニングデータ、テストデータに分割する
この順番に行うとどうなるでしょうか。
もちろん目的変数も時系列で変化しますが、注目すべき説明変数にアルファベットを付けました。
1の操作を行うと次の図のようになります。
エクセルの表のように時系列で並んでいるとお考えください。
(さすがにこんなところで分けることはないですが簡略化ということで・・・)
この後、欠損値を含む列を削除したとすると、確かに3日分の説明変数を用いて予測できそうです。
しかし、この説明変数をよくみると、トレーニングデータで使われてるBとCの値がテストデータにも含まれてしまっていることがわかります。これではダメですね。
#正しい手順の例
これはずばり、ダメな手順の例の反転です。
- トレーニングデータ、テストデータに分割する
- 予測に使うデータ(説明変数)を1~3日分ずらし、1日前〜3日前の説明変数を作成する
これでトレーニングデータとテストデータが重複なく分けられました!
分割してからずらしたため、欠損値がダメな手順より増えることになります。
欠損値がある列は削除するなどして、前処理を加えたあとモデル作成へと進んでください。