Durbin-Watson統計量の近似式
DW = \frac{\sum_{t=2}^{T}(\hat{u}_{t} - \hat{u}_{t-1})^2}{\sum_{t=1}^{T}\hat{u}_{t}^2} \approx 2(1 - \hat{\rho})
について導出する。
ここで、使用した文字は線形回帰モデルにおける以下として定義している。
$\hat{u}_{t}$: 時刻tでの誤差項 (撹乱項) の推定量
$\hat{\rho}$: $\hat{u}_t$と$\hat{u}_t-1}$の回帰係数 (相関係数)
また、DWの値の範囲は、$\hat{\rho}$が相関係数であることから$-1 \leq \hat{\rho} \leq 1$より、
0 \leq DW \leq 4
であるとわかる。
加えて、回帰係数を相関係数と等しいとした点についても導出する。
Durbin-Watson統計量について
Durbin-Watson統計量は、誤差項間に自己相関があるかないかを判別するための指標である。
そもそも、線形回帰モデルの誤差項には、以下の仮定がされていた。
(A) それぞれ独立に分布: $Cov(u_{i}, u_{j}) = 0$
(B) 平均0で分散$\sigma^2$の正規分布に従う: $u_{t} \sim N(0, \sigma^2)$
この(A)について、誤差項の系列相関 ($u_t$と$u_{t-1}$の相関) の有無を検定するためにDW統計量が必要となる。
系列相関について
時系列データ$u_1, ..., u_T$について、具体的な概要は以下となる。
-
プラスが連続した後にマイナスが連続する場合
+ + + - - - - + + ...
⇒正の系列相関 -
プラスとマイナスが交互になる場合
+ - + - + - + - + ...
⇒負の系列相関
実際に系列相関があるかについては、以下のように判断される。
系列相関 | DWの値 |
---|---|
なし | 2前後 |
正 | 2より十分に大きい |
負 | 2より十分に小さい |
近似式の導出
本題である近似式について導出していく。
\begin{align}
DW &= \frac{\sum_{t=2}^{T}(\hat{u}_{t} - \hat{u}_{t-1})^2}{\sum_{t=1}^{T}\hat{u}_{t}^2} \\
&= \frac{\sum_{t=2}^{T}(\hat{u}_{t}^2 - 2\hat{u}_{t}\hat{u}_{t-1} + \hat{u}_{t-1}^2)}{\sum_{t=1}^{T}\hat{u}_{t}^2} \\
&= \frac{2\sum_{t=1}^{T}\hat{u}_{t}^2 - (\hat{u}_{1}^2 + \hat{u}_{T}^2)}{\sum_{t=1}^{T}\hat{u}_{t}^2} -2\frac{\sum_{t=2}^{T}\hat{u}_{t}\hat{u}_{t-1}}{\sum_{t=1}^{T}\hat{u}_{t}^2} \\
&= 2(1 - \frac{\hat{u}_{1}^2 + \hat{u}_{T}^2}{2\sum_{t=1}^{T}\hat{u}_{t}^2} - \frac{\sum_{t=2}^{T}\hat{u}_{t}\hat{u}_{t-1}}{\sum_{t=1}^{T}\hat{u}_{t}^2}) \\
&\approx 2(1 - \hat{\rho})
\end{align}
ここで、最終行で2つの近似を用いたので補足する。
第二項目に関して、Tが十分に大きいときには、$\sum_{t=1}^{T}\hat{u}_t^2 \gg \hat{u}_1^2, \hat{u}_T^2$より、以下となることがわかる。
第二項目 = \frac{\hat{u}_{1}^2 + \hat{u}_{T}^2}{2\sum_{t=1}^{T}\hat{u}_{t}^2} \approx 0
第三項目は、以下のようにして回帰係数$\hat{\rho}$となることがわかる。
\begin{align}
第三項目 &= \frac{\sum_{t=2}^{T}\hat{u}_{t}\hat{u}_{t-1}}{\sum_{t=1}^{T}\hat{u}_{t}^2} \\
&= \frac{\sum_{t=2}^{T}\hat{u}_{t}\hat{u}_{t-1}}{\sum_{t=2}^{T}\hat{u}_{t-1}^2 + \hat{u}_{T}^2} \\
&\approx \frac{\sum_{t=2}^{T}\hat{u}_{t}\hat{u}_{t-1}}{\sum_{t=2}^{T}\hat{u}_{t-1}^2} \\
&= \frac{\sum_{t=2}^{T}(\hat{u}_{t} - \bar{u}_{t})(\hat{u}_{t-1} - \bar{u}_{t-1})}{\sum_{t=2}^{T}(\hat{u}_{t-1} - \bar{u}_{t-1})^2} \\
&= \hat{\rho}
\end{align}
ここで、$u_t$の平均を$\bar{u}$とおいている (仮定Bより$\bar{u}_t = 0$であるとわかる)。
また、最終行への変化は回帰係数の定義式からであるとわかる。
回帰係数と相関係数の関係
相関係数の定義式から、誤差項における回帰係数と相関係数が等しくなることを示す。
\begin{align}
相関係数 &= \frac{\sum(\hat{u}_{t} - \bar{u}_{t})(\hat{u}_{t-1} - \bar{u}_{t-1})}{\sqrt{\sum(\hat{u}_{t} - \bar{u}_{t})^2}\sqrt{\sum(\hat{u}_{t-1} - \bar{u}_{t-1})^2}} \\
&= \frac{\sqrt{\sum(\hat{u}_{t} - \bar{u}_{t})^2}}{\sqrt{\sum(\hat{u}_{t-1} - \bar{u}_{t-1})^2}}\hat{\rho} \\
&= \frac{\sigma}{\sigma}\hat{\rho} \\
&= \hat{\rho}
\end{align}
ここで、2行目から3行目への遷移は、仮定Bの$u_{t} \sim N(0, \sigma^2)$を用いている。