LoginSignup
17
18

More than 3 years have passed since last update.

時系列分析3 時系列データの前処理

Last updated at Posted at 2020-10-29

Aidemy 2020/10/29

はじめに

 こんにちは、んがょぺです!バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます!
 今回は、時系列分析の3つ目の投稿になります。どうぞよろしくお願いします。

*本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。

今回学ぶこと
・時系列データをpandasで扱う
・時系列データを定常性にする方法

時系列データをpandasで扱う

データの読み込みと表示

・SARIMAで時系列データを分析することが最終目標ではあるが、このとき渡すデータに対してはいくつかの前処理を行う必要がある。
・時系列データがCSVファイルで与えられている場合、読み込みは
pd.read_csv("ファイルパス") で行う。

時間情報をインデックスに変換する

・時系列データの分析の際には、時間の情報(Hour,Monthなど)をインデックスに変換することで扱いやすくする。
・変換の手順は以下のようになる。
 ①index情報をpd.date_range("開始時","終了時",freq="間隔")で定義する。
 ②定義した情報を元のデータのインデックスに代入する。
 ③元のデータの時間情報を削除する。

・①で入力する元のデータの開始時や終了時、間隔はdf.head()df.tail()で確認できる。
・また間隔に関しては、秒単位でデータが構成されている場合は「S」、分なら「min」、時間なら「H」、日なら「D」、月なら「M」を渡せば良い。

・コードスクリーンショット 2020-10-29 14.00.33.png

・結果スクリーンショット 2020-10-29 14.00.19.png

データが定常性を持たないときの原因

・時系列データが定常性を持たないときの原因には、「トレンド」と「季節変動」があげられる。
・定常性があるときには期待値が一定であるはずだが、正のトレンドがあった場合期待値は上昇傾向にあると言うことになるので、定常性があるとは言えない。
・同様に、定常性があるときには自己相関係数が一定であるはずだが、季節変動のあるデータ、すなわち一年の中で一時期だけ値が急増急落するようなデータでは、自己相関係数が一定であるとは言えない。

・このような場合は、トレンド、季節変動を取り除く変換を行えば定常性があるデータにすることができる。
・この定常化したデータでモデルを作成した後、再度トレンドや季節変動を合成して原系列のモデルを構築する。

時系列データを定常性にする

トレンド、季節変動の除去

・トレンド、季節変動を除去し、定常性を持たせるには、以下の4つの方法が挙げられる。詳しくは後述。
 ・対数変換で変動の分散を一様にする
 ・移動平均を取ってトレンドを推定し、それを除去する
 ・階差系列に変換する(一般的)
 ・季節調整を行う

対数変換

・「時系列分析1」で見た通り、対数変換を行えばデータの値の変化を穏やかにすることができる。
・これを利用すると、季節変動のような急激な値の変化があるデータに対して、自己共分散を一様にすることができる。すなわち、季節変動を除去することができる
・しかし、この方法ではトレンドが除去できないので、対数変換の他にトレンドを除去する処理を行う必要がある。
・対数変換はnp.log(データ)で行える。

・コードスクリーンショット 2020-10-29 14.03.41.png

・結果スクリーンショット 2020-10-29 14.03.26.png

移動平均

移動平均とは、一定の区間の平均を取ると言うことを、区間を移動しながら行うことである。
・移動平均によって、元のデータの特徴を残しつつ、データを滑らかにすることができる。これにより、季節変動を除去し、トレンドを抽出することができる
・例として、月ごとのデータに季節変動があるとき、12個の移動平均をとることで季節変動を除去できる。また、抽出したトレンドについても「(元の系列)-(移動平均)」で除去することができる。

・移動平均は以下のように算出できる。
データ.rolling(window=移動平均の個数).mean()

・コード(CO2濃度のデータ、51週間(1年間)ごとの移動平均をとる)スクリーンショット 2020-10-29 14.08.16.png

・結果スクリーンショット 2020-10-29 14.08.35.png

階差系列

・「時系列分析1」で見た通り、データを一つ前の値との差をとって扱うことを階差系列という。
・階差系列にすることで、トレンドと季節変動を除去することができる。簡単に行えるため、定常性を持たせるための最も一般的な方法である。
・階差系列を求めるにはデータ.diff()で求めることができる。
・一回階差系列を求めたものを一次階差系列といい、一次階差系列の階差系列を求めたものを二次階差系列という。

・コードスクリーンショット 2020-10-29 14.09.39.png

・結果スクリーンショット 2020-10-29 14.09.30.png

季節調整

・「時系列分析1」で見た通り、季節調整済み系列にすることで、原系列からトレンドと季節変動を除去することができる。
・除去の仕組みとしては、「原系列=トレンド+季節変動+残差」というように原系列は分解できるが、これを「残差=原系列ー(トレンド+季節変動)」というように変換すると残差は原系列からトレンドと季節変動を除去したものになる。これを利用している。
・季節調整済み系列にするには、sm.tsa.seasonal_decompose(データ,freq=区間の指定)を行えば良い。

・コードスクリーンショット 2020-10-29 14.19.05.png

・結果スクリーンショット 2020-10-29 14.19.13.png

まとめ

・時系列分析を行う前に、時系列データの時間情報をインデックスにしておく。
・時系列モデルに渡すデータは定常性がなければいけないので、定常性のないデータに関しては階差系列にするなどの前処理を行う必要がある。

今回は以上です。最後まで読んでいただき、ありがとうございました。

17
18
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
17
18