0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

確率過程と定義から眺める時系列解析1

Posted at

時系列解析の基礎:「自己共分散」を確率論の視点から理解する

はじめに

時系列解析を学ぶとき、多くの人が最初に出会う重要な概念が「自己共分散」です。多くの場合、その計算式はすぐに提示されます。

̂γₕ = (1/n) * Σ(yₜ - ȳ)(yₜ₊ₕ - ȳ)

しかし、この式の本当の意味や、「なぜこの計算でデータの"クセ"がわかるのか?」を深く理解するには、その背後にある確率論の考え方が不可欠です。

この記事では、自己共分散を単なる計算式としてではなく、「母集団」と「標本」、そして**「写像」**という統計学の根本的な概念と結びつけながら、その本質を解き明かしていきます。


1. 観測データの背後にある世界:確率過程

私たちが手にする時系列データは、氷山の一角にすぎません。その背後には、考えうる無数の可能性の世界が広がっています。この世界を数学的に記述するのが確率空間 $(\Omega, \mathcal{F}, P)$ です。

  • 標本空間 (Ω): 考えうる全ての「シナリオ(時間軌跡)」の集合。東京の気温データなら、ありとあらゆる気温の変動パターン全体がここに含まれます。
  • σ-集合体 (F): 確率を計算できる「事象(イベント)」のリスト。「気温が20℃以上になる」のような問いの集まりです。
  • 確率測度 (P): 各事象が起こる確率。

この確率空間を舞台に、時系列データを生み出す仕組みが確率過程 (Stochastic Process) ${Y_t}_{t \in T}$ です。これは、各時刻 t に対応する確率変数 $Y_t$ の集まりです。

確率変数の「族」とは

ここでいう「集まり」を、数学の言葉で**族(ぞく, family)**と呼びます。これは単に「時間を名札(インデックス)として、各時刻に一つずつ確率変数が割り当てられている特別なセット」くらいの意味です。$Y_{2025年9月1日}, Y_{2025年9月2日}, ...$ といった具合に、たくさんの確率変数が一つのチームとして存在し、全体として時間的な変動の仕組みを定義しているイメージです。

写像としての確率変数 $Y_t$

時系列解析の文脈では、各確率変数 $Y_t$ が**写像(関数)**として極めて重要な役割を果たします。

  • 定義域 (Domain): 標本空間 Ω (すべてのシナリオの集合)
  • 値域 (Codomain): 実数集合 $\mathbb{R}$

つまり、$Y_t$ は、$Y_t: \Omega \to \mathbb{R}$ という写像であり、そのルールは「入力されたシナリオ ω の中から、時刻 t の値を抜き出して返す」というものです。そして、この写像が返す値 $y_t = Y_t(\omega)$ の型は実数 (real number) です。

座標射影写像としての役割

この写像の役割をより専門的に**座標射影写像(Coordinate Projection Mapping)**と呼びます。これは難しそうに聞こえますが、幾何学的なイメージを持つと非常に直感的です。

3次元空間の点 (x, y, z) から x の値だけを取り出す操作を「x軸への射影」と呼びますね。それと同じように、シナリオ ω を「時間 t を軸の名前とする無限次元の点 (..., y_{t-1}, y_t, y_{t+1}, ...)」と見なします。

確率変数 $Y_t$ の仕事は、この無限次元の点 ω を受け取り、t という名前の軸(座標)の値を抜き出すことです。まさしく、ωt 軸に射影してその座標 y_t を読み取る操作なのです。


2. 過程の真の性質:母自己共分散 (Population Autocovariance)

確率過程 ${Y_t}$ が持つ、時間的な依存構造の真の姿を記述するのが母自己共分散です。これは、確率過程そのものが持つ**パラメータ(母数)**であり、理論的な値です。

弱定常性を仮定すると、ラグ h の母自己共分散 $\gamma_h$ は以下のように定義されます。

$$\gamma_h = E[(Y_t - \mu)(Y_{t-h} - \mu)]$$

この定義で最も重要なのは、期待値 $E[\cdot]$ の存在です。これは標本空間 Ω に存在するすべてのシナリオにわたる加重平均を意味します。

つまり、母自己共分散は、私たちが観測したたった一つのシナリオ(データ)から直接計算することは不可能な、神のみぞ知る「真の相関の強さ」なのです。


3. 私たちが計算できる唯一のもの:標本自己共分散 (Sample Autocovariance)

私たちが実際に手にする時系列データ y = (y₁, y₂, ..., yₙ) は、確率過程から実現した**たった一つのシナリオ(標本点)**です。

この観測されたデータだけを頼りに、未知の母自己共分散 $\gamma_h$ を推測するために計算するのが標本自己共分散です。これは、母数(パラメータ)を推定するために標本から計算される統計量です。

まず、データの平均(標本平均 ȳ)を計算します。
$$\bar{y} = \frac{1}{n} \sum_{t=1}^{n} y_t$$

そして、この標本平均を用いて、ラグ h の標本自己共分散 ̂γₕ を計算します。
$$\hat{\gamma}h = \frac{1}{n} \sum{t=1}^{n-h} (y_t - \bar{y})(y_{t+h} - \bar{y})$$

この ̂γₕ こそが、私たちがPythonやRのライブラリで「自己共分散を計算」する際に実際に求めている値です。これはあくまで、手元のデータから計算した推定値にすぎません。


4. まとめ:理論と現実の架け橋

時系列解析における自己共分散の理解は、この「母」と「標本」の区別を強く意識することが鍵となります。

概念 世界観 正体 私たちとの関係
母自己共分散 $\gamma_h$ 理論(神の視点) 確率過程のパラメータ 推測したい未知の真の値
標本自己共分散 ̂γₕ 現実(私たちの視点) 観測データから計算する統計量 真の値を推測するための手がかり(推定値)

私たちが時系列解析で行っているのは、**「実現した一つのシナリオ(標本)」という限られた情報から、その背後でデータを生成している「確率過程の真の性質(母数)」**を推測するという壮大な営みなのです。

この構造を理解することで、なぜ自己共分散を計算した後に「統計的に有意か?」といった検定が必要になるのか、その理由も自ずと見えてくるはずです。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?