はじめに
大学の卒業研究で時系列データを扱う上で、「定常性」について学んだので、ここでアウトプットしておきます。これから時系列データを扱う方にとって、有益な情報となれば幸いです。
定常性とは
定常性は、時系列分析で行う多くの統計的モデリングや分析手法において前提とされている性質です。なので、時系列データ予測をしたい時は、最初に定常性を確認する必要があります。
では、「定常性」とはどんな性質なのでしょうか。
「"常(つね)"に"定(さだ)"まっている性質」と書いて、「定常性」というわけですが、
「時間の変化によって、平均や分散などの統計的な特性が変化せず、常に一定である」
という性質です。
定常性を確認する手段
そんな定常性ですが、データを眺めるだけでは正確に判断できません。なので、一般的にADF(拡張ディッキー-フラー)検定やKPSS検定という統計的な検定方法が用いられます。
それぞれの検定で帰無仮説が異なるため、解釈には注意が必要です。
しかし、詳しい算出方法などは、まだあまり理解できていないので、またの機会にさせてください。
非定常の3つのタイプと定常化する手法
定常性を確認できない(時間の変化によって、平均や分散などの値も変化してしまう)場合を非定常と言います。また、「非定常」を「定常」にする処理のことを定常化といいます。
そして、非定常には主に3つのタイプがあります。
一つ目は、トレンド非定常性です。
トレンドとは、データの全体的な傾向のことです。全体的に上昇傾向や下降傾向がある場合、「トレンドが存在する」と表現されます。
トレンドが存在する場合、全体的に値が上昇したり下降したりするわけですから、時間の変化によって、平均値が変化するため、非定常となります。
また、トレンド性非定常の場合は、差分を取ることで、定常化を試みるのが一般的です。
二つ目は、季節性非定常性です。
季節性は、「1年間の周期性」と言い換えた方が理解しやすいかもしれません。例えば、「毎年夏になると値が高くなり、冬になると値が小さくなる。」というような特徴がある場合、時間の変化によって、平均値が変動するので、非定常となります。
季節性非定常性の場合は、季節差分を取ることで、定常化を試みるのが一般的です。
三つ目は、分散性非定常性です。
分散性は、文字通り分散のことです。トレンドや季節性がなかったとしても、最初は分散が大きかったのに、徐々に収まってきた場合やその逆の場合などが当てはまります。もちろん、分散が一定にならないので、非定常となります。
分散性非定常性の場合は、対数変換やBoxCox変換などで、定常化を試みるのが一般的です。
注意点
扱うデータによっては、複数タイプの非定常性が同時に存在する場合もあるため、定常化の手法を適切に見極める必要があります。
おわりに
以上、定常性について学んだことでした。
Qiita初投稿なので拙い文章だったかもしれませんが、最後まで読んでいただき、ありがとうございました。
今後も、学んだことをアウトプットしていこうと思いますので、よろしくお願いします。
参考文献
・https://www.salesanalytics.co.jp/datascience/datascience174/#3
・https://x.com/DS_school_1/status/1780015844275503581