この記事中の表現や誤りは,すべて筆者の責任であり,所属団体や組織を代表したものではありません.また,この記事だけを鵜呑みにせず,後に示した参考文献も参照することをおすすめします.
はじめに
こんにちは,今回は統計学ゼミで現在扱っているテーマ「時系列解析」について,その導入部分を書いてみようと思います.厳密な数学ではなく,諸概念の紹介になります.多くの物理学徒にとって,あまり耳慣れないテーマだと思うので,なるべく優しく表現することを心がけようと思います.
時系列
時間の経過とともに不規則に変動する現象を記録したデータが,時系列(time series) です.気圧,気温や雨量といった気象データ,地震波の記録や為替データ,心電図や船舶の操縦データ等,私たちの身の回りはたくさんの時系列であふれています.物理学実験で得られたデータもほとんどが時系列であるといえるでしょう.時系列は,
\{
\begin{array}{ccccc}
y_1,&y_2, & \cdots & y_n, & \cdots \\
\end{array}
\}
のように,データセットの下に時間$t$を添え字でつけて表現することにしましょう.
自己共分散
時系列データを分析するうえでどのような量について考える必要があるでしょうか.例えば,データの代表値として,データの平均$\mu_n=E[y_n]$や分散$\sigma^2_n=E[(y_n-\mu_n)^2]$を求めることは必要でしょう.しかしながら,これらの基本的な統計量は,”ある時間$n$"に関する情報しか持ちません.しかし現実問題としては,ある時刻のデータがその直前のデータとほぼ同じである,あるいは,10分前のデータとほぼ同じ値を取る周期性があるといったように,時間をまたいだ関係があると考えられます.そこで,
Cov(y_n,y_{n-k})=E[(y_n-\mu_n)(y_{n-k}-\mu_{n-k})]
を定義し,これを時系列$y_n$の自己共分散と呼ぶことにしましょう.明らかに,$k=0$のとき,これは分散を表すことになります.
弱定常条件,強定常条件
時系列$\{y_n\}$が次の条件を満たすとき,弱定常であると言います.
1.平均が時間によらない.(かつ有限)
E[y_n]=E[y_{n-k}]=\mu
2.自己共分散が時間によらず,時間差だけによる.(かつ分散が有限)
Cov(y_n,y_{n-k})=Cov(y_m,y_{m-k})=C_k
このとき,$C_k$をラグ$k$の自己共分散関数と呼びます.自己共分散関数は,($k$に関して)偶関数になっています.確かめてみましょう.
一つ目の条件は,時間をいつ測り始めても物理(得られるデータ)は変わらないこと,二つ目の条件は,異なるデータの関係はその時間差のみに依存することを表しています.また,ある時系列データの同時分布が,時間シフトに対して変わらないとき,すなわち$f$を同時確率密度関数として,
f(y_{i_1},\cdots,y_{i_k})=f(y_{i_1-l},\cdots,y_{i_k-l})
が成り立つとき,時系列$\{y_n\}$は強定常であると言います.平均と分散が有限な時系列の場合,強定常ならば弱定常が成り立ちますが,逆は必ずしも成り立ちません.(平均と分散が存在しないコーシー分布のような分布では,強定常であっても弱定常ではありません.)
ホワイトノイズ
時系列$\{y_n\}$が相関のない確率変数の実現値であり,その自己共分散関数が,
C_k = \left\{
\begin{array}{ll}
\sigma^2 & (k = 0) \\
0 & (k \neq 0)
\end{array}
\right.
で与えられるとき,分散$\sigma^2$のホワイトノイズ(白色雑音)と呼びます.(平均が0となるよう標準化できるので,平均が0を条件に含めることもあります.)
多変量時系列と相互共分散
ランダムな現象を同時にいくつか観測し記録したものが多変量時系列です.同時に記録された系列の数を$l$とし,それぞれの系列の時系列を$y_n(j),(j=1,2,\cdots,l)$と表せば,多変量時系列は$l$次元のベクトル$y_n=(y_n(1),\cdots,y_n(l))^T$となります.
多変量の場合,ある系列のデータに対して,ほかの系列からの影響を考える必要があります.また,この影響は同時刻のものだけではなく,異なる時刻のものも考える必要があるでしょう.そこで相互共分散を次のように考えます.(それぞれの時系列は弱定常と仮定します)
まず,
\begin{align}
C_k(i,j)&=Cov(y_n(i),y_{n-k}(j))\\
&=E[(y_n(i)-\mu(i))(y_{n-k}(j)-\mu(j))]
\end{align}
とします.この時,$l\times l$行列
C_k=
\left(
\begin{array}{ccccc}
C_k(1,1) & \cdots & C_k(1,j)& \cdots & C_k(1,l) \\
\vdots & \ddots & & & \vdots \\
C_k(i,1) & & C_k(i,j) & & C_k(i,l)\\
\vdots & & & \ddots & \vdots \\
C_k(l,1)& \cdots & C_k(l,j)& \cdots & C_k(l,l)
\end{array}
\right)
をラグ$k$の相互共分散関数といいます.特筆すべき点として,相互共分散関数の対角成分は自己共分散が並んだものになっています.
自己回帰過程
1変数に戻って,代表的なモデルを考えましょう.時系列データを表現する代表的なモデルの一つとして,自己回帰過程(autoregressive process) があります.最もシンプルなものは,1次の自己回帰過程,つまりAR(1)過程で,
y_n=a_1y_{n-1}+u_n
と表されます.ここで,$\{u_n\}$はショックあるいはノイズと呼ばれ,多くの場合ホワイトノイズであると仮定されます.
逐次的に解くと,
\begin{align}
y_n&=a_1y_{n-1}+u_n\\
&=a_1(a_1y_{n-2}+u_{n-1})+u_n\\
&\vdots\\
&=a_1^ny_0+\sum_{i=1}^n a_1^{n-i}u_i
\end{align}
となります.よって$|a_1| <1 $のとき,過去から現在への影響は,時間差が開くほど弱くなることが分かります.(実は,$|a_1| <1 $が弱定常条件になっています.)
AR(1)モデルの自己共分散を求めてみましょう.$\{y_n\}$はうまく標準化して平均0とします.また,弱定常を仮定しましょう.まず,漸化式の両辺を二乗して期待値を取ると,
E[y_n^2]=a_1^2E[y_{n-1}^2]+E[u_n^2]+2a_1E[y_{n-1}u_n]
となります.弱定常条件から,$E[y_n^2]=E[y_{n-1}^2]=C_0$です.$\{u_n\}$はホワイトノイズなので,$E[u_n^2]=\sigma^2$です.また,$y_{n-1}$は,$y_0$と$\{u_1,u_2,\cdots,u_{n-1}\}$で書けていることを思い出すと,$E[y_{n-1}u_n]$は0です.したがって,
\begin{align}
C_0&=a_1^2C_0+\sigma^2\\
C_0&=\frac{\sigma^2}{1-a_1^2}
\end{align}
となります.つぎに,漸化式の両辺に$y_{n-k}$をかけて期待値を取れば,$C_k=a_1C_{k-1}$という関係式が得られるので,結局,
C_k=a_1^k\frac{\sigma^2}{1-a_1^2}
となります.
より一般には,
y_n=a_1y_{n-1}+a_2y_{n-2}+\cdots+a_py_{n-p}+u_n
で与えられる,p次の自己回帰過程,AR(p)過程について考えていくことになります.
移動平均過程,ARMAモデル
過去のショックが現在の時系列に影響を与えると考えるのが,移動平均過程(moving average process)(MA(q)過程) です.このとき,$\{y_n\}$は,
y_n=u_n+b_1u_{n-1}+b_2u_{n-2}+\cdots+b_qu_{n-q}
と表されます.さらに先ほどの自己回帰過程と組み合わせることで,
y_n=a_1y_{n-1}+\cdots+a_py_{n-p}+u_n+b_1u_{n-1}++\cdots+b_qu_{n-q}
なるモデルを作ることができます.これをARMA(p,q)過程(自己回帰移動平均過程)とよびます.
まとめ
本記事では,時系列解析の導入として,時系列の定義や自己・相互共分散,弱・強定常条件さらにARMAモデルの簡単な紹介を行いました.皆さんの研究分野にも,何か応用できないでしょうか?例えば,私は開放量子系の議論にこの考えを持ち込めるのではないかとにらんでいます.(環境系のt時間前の状態が着目系の現在の状況に影響を与える…といった場面に応用できそうです.)(情報量といった概念から開放量子系,量子情報と統計学は結び付きやすいと思っています.)また,実験データの解析にも応用できるでしょう.
時系列解析にはほかにも,スペクトルやピリオドグラム,時間シフトオペレータといった面白い話題がたくさんあります.また,この記事には混乱を避けるためにあえて載せなかったのですが,本来は母数である自己共分散を推定するために,標本自己共分散を用いる必要があります.推定の話になると,統計学はさらに複雑化して難しくなってきます.非定常時系列に関しては手も足も出ないかもしれません.
この記事を通して,時系列解析,統計学に関して興味を持ってくれたら幸いです.統計検定を受けてみるのもおすすめですよ!(筆者は今年1級を受け,合否を待っているところです.)それでは,良い統計lifeを!
演習問題
1.弱定常なガウス型時系列(正規分布に従う)は強定常である.このことを説明せよ.
2.$\{u_n\}$を平均0,分散1のホワイトノイズとするとき,
y_n=u_n-cu_{n-1}\ \ \ \ \ \ \ (|c|<1)
の自己共分散関数を求めよ.
3.$C_k$のフーリエ変換をパワースペクトル密度関数といい,$-1/2<f<1/2$の$f$に対して,
p(f)=\sum_{k=-\infty}^{\infty}C_ke^{-2\pi ikf}
と定義される.AR(1)モデルのパワースペクトル密度関数が,
p(f)=\frac{\sigma^2}{1-2a_1cos2\pi f+a_1^2}
で与えられることを示せ.
参考文献
- 北川源四郎 『時系列解析入門』(2005)
この記事の大部分において参考にさせていただきました. - 日本統計学会 『統計学実践ワークブック』(2020)
統計検定準1級,1級対策の教本だが,幅広い話題の基礎が網羅的に載っていて辞書的に扱いやすい. - 久保川達也 『現代数理統計学の基礎』(2017)
われらがバイブル.測度論に立ち入らないため,物理学徒でも読みやすい.演習問題&解説が丁寧.