はじめに
久しぶりの投稿になります。
最近時系列データ解析に興味が出てきて、いくつか書籍を読んでみたので、復習も兼ねてまとめていきます。
予定としては、定常性などの基礎的な概念のまとめから、ARIMAモデルや状態空間モデルなどの数理モデルについてのまとめまで、網羅的にやっていけたら、と思っています。
可能な限りPythonでのシミュレーションも交えられたらいいな。
今回は、「時系列データと基本統計量について」です。
時系列データとは
時系列データとはどのようなものなのか。
沖本(2010)によれば、『時間の推移とともに観測されるデータのことであり、観測される順序に意味がある』データだと定義されている。
例えば、日経株価指数だとか、国内総生産だとか、毎日の最高気温だとか、例はいくつでも挙げられる。
時系列データ分析の目的は、このように順序的に観測されたデータの多様な特徴を分析し、それらを記述できるモデルを構築することである。
基本統計量
-
平均・分散
時系列データは各時点で観測された値の集合であり、時点1からTまでのデータが観測されたとすると、$\lbrace y_t\rbrace^T_{t=1}$と表記される場合が多い。
時点Tを固定して考えると、それぞれの時点での$y_t$は確率変数として扱うことができ、期待値や分散を計算することができる。それぞれ以下の通りである。
$$E\lbrack y_t\rbrack=\mu_t$$ $$V\lbrack y_t\rbrack=E\lbrack (y_t-\mu_t)^2\rbrack$$
分散の平方根は標準偏差と呼ばれ、経済の分野ではボラティリティと呼ぶことが多い。 -
自己共分散・自己相関係数
時系列データ特有の基本統計量として、自己共分散、自己相関係がある。
自己共分散:ある時点 $t$と異なる時点 $k$における共分散
自己相関係数:自己共分散を正規化したもの
$k$次の自己共分散と自己相関係数を数式として表すと、以下のようである。$$\gamma_{kt}=Cov[y_t,t_{t-k}]=E[(y_t-\mu_t)(y_{t-k}-\mu_{t-k})]$$ $$\rho_{kt}=Corr[y_t,y_{t-h}]=\frac{Cov[y_t,y_{t-k}]}{\sqrt{V[y_t]V[y_{t-h}]}}=\frac{\gamma_{kt}}{\sqrt{\gamma_{0t}\gamma_{0,t-k}}}$$
解釈はテーブルデータの共分散、相関係数と同じである。
例えば、3次の自己共分散が正のとき、時点tの値$y_t$が期待値よりも大きければ、3時点離れた$y_{t-3}$の値も期待値よりも大きい傾向にある、という事である。
テーブルデータと同じく、自己共分散は単位に依存した値であるため、正規化した自己相関係数を用いることで、変数間での値の比較等することが可能となる。
自己相関係数について、$k$の関数としてみたとき、自己相関関数と呼び、$k$を横軸に、自己相関係数を縦軸にプロットしたグラフのことをコレログラムという。
<コレログラムの例>
まとめ
- 時系列データとは、時間的順序を持ったデータのことである
- 時間$t$を固定すればそれぞれの時点$t$の実現値は確率変数とみなすことができ、期待値や分散が計算できる
- 時系列データ固有の統計量として、自己共分散や自己相関係数があるが、解釈はテーブルデータの場合となんら変わりはない
以上、今回の投稿のまとめとしますが、時系列データの統計量を計算する上では、大きな問題が存在していることにお気づきでしょうか。
ある時点$t$での実現値$y_t$は一度しか観測されないのです。
2023年1月23日の最高気温が、2つも3つも観測されるなんてことはないはずです。
一度しか観測できないデータの期待値や分散など、どうやって計算するのでしょうか。
それは、得られた時系列データに何かしらの構造や性質を仮定することにより解決します。
次回の投稿では、その『何かしらの構造や性質』について言及していきます。
参考文献
沖本竜義(2010) -経済・ファイナンスデータの計量時系列分析
日本統計学会 -統計学実践ワークブック(統計検定準1級対応)