時系列解析の基礎:「自己共分散」を確率論の視点から理解する
はじめに
時系列解析を学ぶとき、多くの人が最初に出会う重要な概念が「自己共分散」です。多くの場合、その計算式はすぐに提示されます。
̂γₕ = (1/n) * Σ(yₜ - ȳ)(yₜ₊ₕ - ȳ)
しかし、この式の本当の意味や、「なぜこの計算でデータの"クセ"がわかるのか?」を深く理解するには、その背後にある確率論の考え方が不可欠です。
この記事では、自己共分散を単なる計算式としてではなく、「母集団」と「標本」、そして**「写像」**という統計学の根本的な概念と結びつけながら、その本質を解き明かしていきます。
1. 観測データの背後にある世界:確率過程
私たちが手にする時系列データは、氷山の一角にすぎません。その背後には、考えうる無数の可能性の世界が広がっています。この世界を数学的に記述するのが確率空間 $(\Omega, \mathcal{F}, P)$ です。
- 標本空間 (Ω): 考えうる全ての「シナリオ(時間軌跡)」の集合。東京の気温データなら、ありとあらゆる気温の変動パターン全体がここに含まれます。
- σ-集合体 (F): 確率を計算できる「事象(イベント)」のリスト。「気温が20℃以上になる」のような問いの集まりです。
- 確率測度 (P): 各事象が起こる確率。
この確率空間を舞台に、時系列データを生み出す仕組みが確率過程 (Stochastic Process) ${Y_t}_{t \in T}$ です。これは、各時刻 t
に対応する確率変数 $Y_t$ の集まりです。
確率変数の「族」とは
ここでいう「集まり」を、数学の言葉で**族(ぞく, family)**と呼びます。これは単に「時間を名札(インデックス)として、各時刻に一つずつ確率変数が割り当てられている特別なセット」くらいの意味です。$Y_{2025年9月1日}, Y_{2025年9月2日}, ...$ といった具合に、たくさんの確率変数が一つのチームとして存在し、全体として時間的な変動の仕組みを定義しているイメージです。
写像としての確率変数 $Y_t$
時系列解析の文脈では、各確率変数 $Y_t$ が**写像(関数)**として極めて重要な役割を果たします。
-
定義域 (Domain): 標本空間
Ω
(すべてのシナリオの集合) - 値域 (Codomain): 実数集合 $\mathbb{R}$
つまり、$Y_t$ は、$Y_t: \Omega \to \mathbb{R}$ という写像であり、そのルールは「入力されたシナリオ ω
の中から、時刻 t
の値を抜き出して返す」というものです。そして、この写像が返す値 $y_t = Y_t(\omega)$ の型は実数 (real number) です。
座標射影写像としての役割
この写像の役割をより専門的に**座標射影写像(Coordinate Projection Mapping)**と呼びます。これは難しそうに聞こえますが、幾何学的なイメージを持つと非常に直感的です。
3次元空間の点 (x, y, z)
から x
の値だけを取り出す操作を「x軸への射影」と呼びますね。それと同じように、シナリオ ω
を「時間 t
を軸の名前とする無限次元の点 (..., y_{t-1}, y_t, y_{t+1}, ...)
」と見なします。
確率変数 $Y_t$ の仕事は、この無限次元の点 ω
を受け取り、t
という名前の軸(座標)の値を抜き出すことです。まさしく、ω
を t
軸に射影してその座標 y_t
を読み取る操作なのです。
2. 過程の真の性質:母自己共分散 (Population Autocovariance)
確率過程 ${Y_t}$ が持つ、時間的な依存構造の真の姿を記述するのが母自己共分散です。これは、確率過程そのものが持つ**パラメータ(母数)**であり、理論的な値です。
弱定常性を仮定すると、ラグ h
の母自己共分散 $\gamma_h$ は以下のように定義されます。
$$\gamma_h = E[(Y_t - \mu)(Y_{t-h} - \mu)]$$
この定義で最も重要なのは、期待値 $E[\cdot]$ の存在です。これは標本空間 Ω
に存在するすべてのシナリオにわたる加重平均を意味します。
つまり、母自己共分散は、私たちが観測したたった一つのシナリオ(データ)から直接計算することは不可能な、神のみぞ知る「真の相関の強さ」なのです。
3. 私たちが計算できる唯一のもの:標本自己共分散 (Sample Autocovariance)
私たちが実際に手にする時系列データ y = (y₁, y₂, ..., yₙ)
は、確率過程から実現した**たった一つのシナリオ(標本点)**です。
この観測されたデータだけを頼りに、未知の母自己共分散 $\gamma_h$ を推測するために計算するのが標本自己共分散です。これは、母数(パラメータ)を推定するために標本から計算される統計量です。
まず、データの平均(標本平均 ȳ
)を計算します。
$$\bar{y} = \frac{1}{n} \sum_{t=1}^{n} y_t$$
そして、この標本平均を用いて、ラグ h
の標本自己共分散 ̂γₕ
を計算します。
$$\hat{\gamma}h = \frac{1}{n} \sum{t=1}^{n-h} (y_t - \bar{y})(y_{t+h} - \bar{y})$$
この ̂γₕ
こそが、私たちがPythonやRのライブラリで「自己共分散を計算」する際に実際に求めている値です。これはあくまで、手元のデータから計算した推定値にすぎません。
4. まとめ:理論と現実の架け橋
時系列解析における自己共分散の理解は、この「母」と「標本」の区別を強く意識することが鍵となります。
概念 | 世界観 | 正体 | 私たちとの関係 |
---|---|---|---|
母自己共分散 $\gamma_h$ | 理論(神の視点) | 確率過程のパラメータ | 推測したい未知の真の値 |
標本自己共分散 ̂γₕ
|
現実(私たちの視点) | 観測データから計算する統計量 | 真の値を推測するための手がかり(推定値) |
私たちが時系列解析で行っているのは、**「実現した一つのシナリオ(標本)」という限られた情報から、その背後でデータを生成している「確率過程の真の性質(母数)」**を推測するという壮大な営みなのです。
この構造を理解することで、なぜ自己共分散を計算した後に「統計的に有意か?」といった検定が必要になるのか、その理由も自ずと見えてくるはずです。