TL;DR
偏自己相関係数は偏相関係数と同様に、条件付き相関係数の記載で定義できます。
そのため、統計学の勉強中に、もし偏自己相関係数についてわからなくなった場合は、偏相関係数と同じように考えて安心していただければと思います。
2.2 Partial Autocorrelation Function (PACF) | STAT 510 によくまとまってます。
1. Preface
1.1. モチベーション
統計の勉強をしている際に偏自己相関係数について学びました。
ただ、自分が読んでいる参考書の説明で理解することができませんでした。
そこで、本ブログでは自分が理解しやすいと感じたもので再定義しました。
1.2. 結果
今回自分が定義した方法でカリフォルニア大学バークレー校の講義資料に記載されている定理を利用できることを確認しました。
また、再定義と謳いましたが、本定義はエバリー科学大学の講義資料の定義方法と一致していました。そのため、おそらく本定義が誤っていないだろうということを再確認しました。
2. Definition
2.1. おさらい
偏相関係数(Partial Correlation Coefficient)は次の定義であたえられる量です:
- 偏相関係数:
- $\text{Corr}\left(X_j,Y|{ X_{1}, X_{2},\dots, X_{j-1}, X_{j+1}, \dots, X_{n} }\right)=:\text{Corr}\left(X_j,Y|X_{-j}\right)$
ある変数のペアの相関関係を、他の変数の影響を取り除いた状態で測定するものです(上記の定義は統計検定準1級対応 統計学実践ワークブック | 学術図書出版社 - 大学・短大・高専・専門学校向けの教科書出版のp.16などで定義されているものとは少し異なりますが、重回帰に拡張をすると同様の量になっていることがわかります)。
一方、偏自己相関係数 (Partial Autocorrelation Coefficient)は時系列において、ある時点のデータとそれより前の特定の時点のデータとの相関関係を、途中の時点のデータの影響を取り除いた影響を見るための係数のことです。偏相関係数と同じような名前をしていますが、沖本 竜義(著) 統計ライブラリー 計量時系列分析|朝倉書店 (2010)のp.47,48や統計検定準1級対応 統計学実践ワークブック| 学術図書出版社(2020)のp.248 では定義についての説明がなく用語のみの説明としてとどめていました。
2.2. 定義
本ブログでは以下のように偏自己相関係数を定義します:
- 偏自己相関係数:
- $\text{Corr}\left( X_t, X_{t-k} \ \middle| \ { X_{t-1}, X_{t-2}, \dots, X_{t-k+1} } \right)$
⚠️冒頭に記載の通り私が確認した限りでは、私が保有しているどの参考文献をあたっても偏自己相関係数に対して上記の定義をしているものはなかったです。ただ、エバリー科学大学の講義資料である2.2 Partial Autocorrelation Function (PACF) | STAT 510の定義と一致しており、カリフォルニア大学バークレー校のPeter L. Bartlettさんの講義資料 p.19の内容に式変形できることを確認しました。
3. Proof
3.1. 確認をしたいこと
Partial autocorrelation function - Wikipediaによると偏自己相関係数は、Durbin–Levinson Algorithmで求めることができるようであるため、今回の定義からそちらへの式変形が可能か確かめます。
偏自己相関係数は偏相関係数と同じ形をしているため、偏相関係数の式変形をするところから確認を進めます。
証明の途中で線型回帰の仮定などをいくつか利用して、少し粗い証明の記述となっています。
清書する時間はおそらく無いため、雰囲気だけで拾っていただければと思います。すみません。
3.1. 偏相関係数の変形
定義から以下の数式を得ます:
$\text{Corr}\left(X_j,Y|X_{-j}\right)=\frac{\text{Cov}\left(X_j,Y|X_{-j}\right)}{\sqrt{\text{Var}\left(X_j|X_{-j}\right)}\sqrt{\text{Var}\left(Y|X_{-j}\right)}}$
ここで以下の関係性を利用すると、$X_{-j}$を与えられた際における$Y$と$X$の分布を考え、その残差について考えれば良いことがわかります。
- $\text{Var}\left(X_j|X_{-j}\right)=\text{E}\left[ (X_j-E[X_j|X_{-j}])^2\right]=:\text{Var}(\varepsilon_X)$
- $\text{Cov}\left(X_j,Y|X_{-j}\right)=\text{E}\left[(X_j-[X_j|X_{-j}])(Y-[Y|X_{-j})\right]=:\text{Cov}\left(\varepsilon_X,\varepsilon_Y\right)$
また、条件付き分布の期待値は日本統計学会公式認定 統計検定1級対応 統計学| 東京図書(2013)のp.131などでは線形回帰の推定値を用いていました。
3.2. 偏自己相関係数の変形
途中の数式変換までは、偏相関係数と同じであるため、$X_{t}-E[X_{t}|X_{t-1},\cdots,X_{t-k+1}]=:\varepsilon_t$として残差$\varepsilon_t$の分散から考えます。
3.2.1. Var(ε_t)
期待値計算についてラグが$k-1$の状態の回帰係数$\mathbb{a}$を用いて$\text{E}[X_t|X_{t-1}, X_{t-2}, \dots, X_{t-k+1}] = \sum_{j=1}^{k-1} a_j X_{t-j}$で表せるとし、 $\text{Var}(X_{t-j}) = \gamma_0 $ であり、$\text{Cov}(X_{t-i}, X_{t-j}) = \gamma_{|i - j|}$とすると以下が成立します:
\begin{aligned}
\text{Var}(\varepsilon_t) &= \text{Var}\left( X_t - \sum_{j=1}^{k-1} a_j X_{t-j} \right) \\
&= \text{Var}(X_t) + \sum_{j=1}^{k-1} a_j^2 \text{Var}(X_{t-j}) - 2 \sum_{j=1}^{k-1} a_j \text{Cov}(X_t, X_{t-j}) + 2 \sum_{i<j} a_i a_j \text{Cov}(X_{t-i}, X_{t-j}) \\
&= \gamma_0 + \sum_{j=1}^{k-1} a_j^2 \gamma_0 - 2 \sum_{j=1}^{k-1} a_j \gamma_j + 2 \sum_{i<j} a_i a_j \gamma_{|i - j|} \\
&= \gamma_0 + \left( \sum_{i=1}^{k-1} \sum_{j=1}^{k-1} a_i a_j \gamma_{|i - j|} \right) - 2 \sum_{j=1}^{k-1} a_j \gamma_j
\end{aligned}
ここで、共分散は線型性が成立することを利用して上の式を簡略化することを目指します。
- 共分散の線型性:$\text{Cov}(X+Y,Z)=\text{E}[(X+Y)Z]-\text{E}[X+Y]\text{E}[Z]=\text{Cov}(X,Z)+\text{Cov}(Y,Z)$(ここで、$X,Y,Z$に関する計算は全て有限としている限りの任意の確率変数)
$X_{t-i}$と残差項が無相関と仮定をすると$X_t=\sum_{j=1}^{k-1} a_j X_{t-j}+\varepsilon_t$の両辺に$X_{t-i}$との相関を考え式変形をすると$\gamma_i=\sum_{j=1}^{k-1} a_j \gamma_{|i - j|} \quad (i = 1, 2, \dots, k-1)$が成立します。
よって、上の式は以下のように簡略化できます:
\begin{aligned}
\text{Var}(\varepsilon_t) &= \gamma_0 + \left( \sum_{i=1}^{k-1} \sum_{j=1}^{k-1} a_i a_j \gamma_{|i - j|} \right) - 2 \sum_{j=1}^{k-1} a_j \gamma_j \\
&= \gamma_0 + \sum_{i=1}^{k-1} a_i \left( \sum_{j=1}^{k-1} a_j \gamma_{|i - j|} \right) - 2 \sum_{j=1}^{k-1} a_j \gamma_j \\
&= \gamma_0 + \sum_{i=1}^{k-1} a_i \gamma_i - 2 \sum_{j=1}^{k-1} a_j \gamma_j \\
&= \gamma_0 - \sum_{j=1}^{k-1} a_j \gamma_j
\end{aligned}
(補足)$a,\gamma$の関係性を行列の関係で表すと次のように書けます:
\begin{pmatrix}
\gamma_1 \\
\gamma_2 \\
\vdots \\
\gamma_{k-1}\\
\end{pmatrix} = \begin{pmatrix}
\gamma_0 & \gamma_1 & \cdots & \gamma_{k-2} \\
\gamma_1 & \gamma_0 & \cdots & \gamma_{k-3} \\
\vdots & \vdots & \ddots & \vdots \\
\gamma_{k-2} & \gamma_{k-3} & \cdots & \gamma_0 \\
\end{pmatrix}
\begin{pmatrix}
a_1 \\
a_2 \\
\vdots \\
a_{k-1}\\
\end{pmatrix}
3.2.2. Var(ε_{t-k})
次に$X_{t}-E[X_{t-k}|X_{t-1},\cdots,X_{t-k+1}]=:\varepsilon_{t-k}$を考えます。
$\text{Var}(\varepsilon_t)$と数式としては似ていますが、前方の時間が与えられた際における後方への時間の向きを考えた残差であることに注意をします。
先ほどと同様に期待値を$\text{E}[X_{t-k}|X_{t-1}, X_{t-2}, \dots, X_{t-k+1}]=\sum_{j=1}^{k-1} b_j X_{t-j}$で表せるとし$X_{t-k} = \sum_{j=1}^{k-1} b_j X_{t-j} + \varepsilon_{t-k}$とします。
前方でも後方でも先程と同様の計算が成立するため以下が成立します:
\begin{aligned}
\text{Var}(\varepsilon_{t-k}) &= \gamma_0 - \sum_{j=1}^{k-1} b_j \gamma_j
\end{aligned}
ここで、共分散の線形性から以下の内容を利用して式変形をしていることに注意します:
\gamma_{k-i}=\sum_{j=1}^{k-1} b_j \gamma_{|j - i|} \quad (i = 1, 2, \dots, k-1)
また、$i' = k - i, j' = k - j$とすると以下が成立します:
\begin{aligned}
\gamma_{i'}&= \sum_{j'=1}^{k-1} b_{k - j'} \gamma_{|(k - j') - (k - i')|} \\
&= \sum_{j'=1}^{k-1} b_{k - j'} \gamma_{|i'-j'|}
\end{aligned}
ここで$a$の式と改めて比較をしてみましょう:
\gamma_i=\sum_{j=1}^{k-1} a_j \gamma_{|i - j|}
上記のことから$a$と$b$の関係性が確認できるため次が成立します($k-1$つの方程式が存在していて、共分散は正則であるため):
b_j=a_{k-j}
これに加えて、相関係数の対称性$\gamma_{k-j}=\gamma_{j}$を利用すると、今回求める残差の分散についても$a$で表現ができます:
\begin{aligned}
\text{Var}(\varepsilon_{t-k}) &= \gamma_0 - \sum_{j=1}^{k-1} b_j \gamma_j \\
&= \gamma_0 - \sum_{j=1}^{k-1} a_j \gamma_j
\end{aligned}
3.2.3. 残差間の共分散
今までの導出を利用すると以下が成立します:
\begin{aligned}
\text{Cov}(\varepsilon_t, \varepsilon_{t-k}) &= \gamma_k - \sum_{j=1}^{k-1} b_j \gamma_{k - j} - \sum_{i=1}^{k-1} a_i \gamma_{k - i} + \sum_{i=1}^{k-1} \sum_{j=1}^{k-1} a_i b_j \gamma_{|i - j|} \\
&= \gamma_k - 2\sum_{i=1}^{k-1} a_i \gamma_{k - i} + \sum_{i=1}^{k-1} a_i \left( \sum_{j=1}^{k-1} b_j \gamma_{|i - j|} \right)\\
&= \gamma_k - 2\sum_{i=1}^{k-1} a_i \gamma_{k - i} + \sum_{i=1}^{k-1} a_i \gamma_{k-i}\\
&= \gamma_k - \sum_{j=1}^{k-1} a_j \gamma_{k - j} \\
&= \gamma_k - \sum_{j=1}^{k-1} a_j \gamma_{j}
\end{aligned} \\
3.2.4. 偏相関係数の簡略化
以上のことから次が成立します:
\begin{aligned}
&\text{Corr}\left( X_t, X_{t-k} \ \middle| \ \{ X_{t-1}, X_{t-2}, \dots, X_{t-k+1} \} \right) \\
&=
\frac{\text{Cov}(\varepsilon_t, \varepsilon_{t-k})}{\sqrt{\text{Var}(\varepsilon_{t})}\sqrt{\text{Var}(\varepsilon_{t-k})}} \\
&=\frac{
\gamma_k - \sum_{j=1}^{k-1} a_j \gamma_{j}
}{
\gamma_0 - \sum_{j=1}^{k-1} a_j \gamma_j
}
\end{aligned}
3.2.5 Durbin–Levinson Algorithmへの紐付け
$k$を動かしながら$\mathbb{a}$や偏自己相関係数を求める方法として、再帰的に求めることで効率が良いことが知られいて有名なアルゴリズムとしてDurbin–Levinson Algorithmがあります。上記の式の内容はそちらの形式と同様の形をしています(カリフォルニア大学バークレー校のPeter L. Bartlettさんの講義資料 p.19)。
よって、本ブログの定義でDurbin–Levinson Algorithmが利用できることを確認することができました。
(確認終わり)
3.3. まとめ
よって、偏自己相関係数は偏相関係数と同様に、条件付き相関係数の記載で定義できることを確認しました。
4. Off-topic
4.1. アルゴリズムの妥当性について
Durbin–Levinson Algorithmの妥当性は証明できませんでした。そのため本ブログでは扱いませんが、もし証明されたい方で当ブログを参考にしたい場合は、ラグ$k-1$における回帰係数について$\mathbb{a}$の箇所を$\mathbb{a}^{(k-1)}$などとして考えるなどの注意してもらえればと思います。
4.2. 定理から定義を確認する行為について
本ブログは定義について定理から確認をするという、通常ではありえない方向での確認をしています。このことで、混乱を招いてしまっていたら申し訳ございません。ただ、こちらの行為自体は少し面白いと感じております。
満たしてほしい定理だけが与えられ、それを満たすような定義を考えることは、エンジニアにおいての要件設計の考えに似ていると感じたためです。
4.3. 証明の記述の粗さについて🙇
証明を始める前で線型回帰等の仮定を記述するべきですが、途中途中で仮定を乱用してしまいすみません。
時間が取れるときに整備しますが、どのようにしたら、Durbin–Levinson Algorithmが利用できるかに注力をあてて書き進めてしまいました。清書をする時間を取ればよいのですが、そこまでする体力がなく直せていません。一方で、せっかくここまで書いたということもあり、一旦この形で公開させていただきました。半端な内容となってしまい、大変申し訳ございません。勉強の参考程度になれば幸いです。
5. Reference
5.1. 書籍
- 沖本 竜義(著) 統計ライブラリー 計量時系列分析|朝倉書店 (2010)
- 統計検定準1級対応 統計学実践ワークブック| 学術図書出版社(2020)
- 日本統計学会公式認定 統計検定1級対応 統計学| 東京図書(2013)
5.2. ネットの記事
記事については2024年9月28日アクセスしました。
本書で扱わなかった記事もありますが、本ブログに関連してわかりやすいと感じた記事をまとめておきます:
- カリフォルニア大学バークレー校のPeter L. Bartlettさんの講義資料
- エバリー科学大学の講義資料 2.2 Partial Autocorrelation Function (PACF) | STAT 510
- 偏自己相関(Partial AutoCorrelation)の定義や計算の流れを確認する - あつまれ統計の森
- Partial autocorrelation function - Wikipedia
- Partial correlation - Wikipedia
- 京都大学の講義資料