More than 5 years have passed since last update.

【機械学習】時系列データでのトレーニング/テストデータの作成で注意すべきこと

Last updated at 2020-06-04Posted at 2020-06-04

はじめに

トレーニングデータ、テストデータに分割するときに、テストデータにトレーニングデータを含ませないのは機械学習の基本です。

しかし、時系列データだとその間違いは気付かないうちに起きやすいので、簡単に図でまとめてみました。

今回は、予測対象日から1日前〜3日前のデータを用いて予測するというケースについて考えます。

分かりやすさを考え、予測対象のデータ（目的変数）と予測に使うデータ（説明変数）は別種類のデータとし、さらに説明変数を１種類としました。

この順番に行うとどうなるでしょうか。

もちろん目的変数も時系列で変化しますが、注目すべき説明変数にアルファベットを付けました。

1の操作を行うと次の図のようになります。

エクセルの表のように時系列で並んでいるとお考えください。

さて、ここで2の操作を行うとどうなるでしょうか。

（さすがにこんなところで分けることはないですが簡略化ということで・・・）

この後、欠損値を含む列を削除したとすると、確かに３日分の説明変数を用いて予測できそうです。
しかし、この説明変数をよくみると、トレーニングデータで使われてるBとCの値がテストデータにも含まれてしまっていることがわかります。これではダメですね。

これはずばり、ダメな手順の例の反転です。

こうして作成されるデータは次の図のようになります。

これでトレーニングデータとテストデータが重複なく分けられました！

分割してからずらしたため、欠損値がダメな手順より増えることになります。

欠損値がある列は削除するなどして、前処理を加えたあとモデル作成へと進んでください。