状態変数のフィルタリング値の直感的な意味
前回のブログでは、t-1期の情報からt期の状態変数の予測値$\hat \beta_{t|t-1}$ と、状態変数の予測値の分散$\hat \Sigma_{t|t-1}$の式展開を説明した。今回はt期の情報からt期の状態変数の推定値、すなわち、フィルタリングを説明する。この状態変数のフィルタリング値を $\beta_{t|t}$ と書くことにするが、この導出は若干、複雑になる。
このため、今回は2変量正規分布の特性からフィルタリング値の直感的な導出を行い、式展開による $\beta_{t|t}$ の導出は、次回以降のブログに譲ることにする。
2変量正規分布
2つの確率変数 $ Z, Y$があり、各々正規分布に従うとする。すなわち、$ Z ~ N(\mu_z, \sigma_z^2)$, $ Y ~ N(\mu_y, \sigma_y^2)$とする。このとき、
- 無条件の期待値は各々、$\mu_z = E(Z)$, $\mu_y = E(Y)$
- 無条件の分散は各々、 $\sigma_z=Var(Z)=E[(Z-\mu_z)^2]$, $\sigma_y=Var(Y)=E[(Y-\mu_y)^2]$
- 無条件の共分散は、$\sigma_{zy}=\sigma_{yz}=Cov(Z,Y)=E[(Z-\mu_z(Y-\mu_y))]$
- 無条件の相関は、$-1\leqq \rho_{zy}=\frac{Cov(Z,Y)}{\sqrt{Var(Z)}\sqrt{Var(Y)}}=\frac{\sigma_{zy}}{\sigma_z \sigma_y}\leqq1$
となる。
条件付き期待値、条件付分散
まず、2変量正規分布に従う確率変数を考える。ある観測値 $Y=y$ が得られたとする。このとき、確率変数Zの期待値は次のようになる。
$E(Z|Y=y)=\mu_{z|Y=y}=\mu_z + K (y-\mu_y) \tag{11}$
$K = \frac{Cov(Z,Y)}{Var(Y)} \tag{12}$
(11)条件付期待値の右辺の意味は$Z$の無条件期待値 $\mu_z$ に**実現値$y$ と Yの期待値$\mu_y$との差(新しい情報の価値)**から得られている。
(12)の$K$の意味は単回帰係数$\beta$と同じ意味であり、平たく言えば2つの変量間の傾きである。すなわち、新しく得られた情報$Y=y$に基づいて$Z$を推定していることになる。尚、$Cov(Z,Y)=0$、つまり無相関ならば、$K=0$となり、条件付分散 $E(Z|Y=y)=\mu_z$ となる。つまり、無条件期待値と同じになり、変数Zにとっては、Yの情報の価値はないということになる。
次に2変量正規分布に従う、確率変数Zの条件付分散は次のように示すことができる。
$Var(Z|Y=y) = \sigma^2_{z|Y=y}=(1-\rho^2_{zy})\sigma_z$
これは$\rho_{zy}\neq0$であれば、条件付分散$\sigma^2_{z|Y=y}$は無条件分散$\sigma^2_z$よりも小さくなることを意味する。新しい情報$Y=y$を得たことで推定の精度が向上していることを示している。
状態変数のフィルタリング値
上記の例に従い、状態変数と観測変数の関係について述べる。
状態変数$\beta_t$と観測変数$Y_t$の関係も2変量正規分布と同様の関係といえる。唯一の違いは、各変数が時間変化する変数となる点である。すなわち、 次のようになる。
$\hat \beta_{t|t}= \hat \beta_{t|t-1}+ K_t (Y_t - \hat Y_{t|t-1}) \tag{13}$
(13)の右辺の意味は$\beta$の1期前からの期待値 $\hat \beta_{t|t-1}$ に**実現値$Y_t$ と Yの1期前の期待値$\hat Y_{t|t-1}$との差(新しい情報の価値)**から得られている。また2変量正規分布と同様に$K_t$が2つの変数間の間をつなぐ役割を果たしている。この$K_t$をカルマンゲインといい、後日このブログで解説する。
最後に、状態変数のフィルタリング値の分散を示すと以下のようになる。
$\hat \Sigma_{t|t}= (1 - X_t K_t) \hat \Sigma_{t|t-1}\tag{14}$
カルマンゲインの解説で示すが$0\leqq X_t K_t\leqq1$となるため、$X_t K_t\neq0$であれば、フィルタリング値の分散$\hat \Sigma_{t|t}$は1期前の情報から予測した分散$\hat \Sigma_{t|t-1}$よりも小さくなることを意味する。新しい情報$X_t$を得たことで推定の精度が向上していることを示している。ここで、唐突に$X_t$が出てきたと思われる方もいるかもしれないが、これは第2回のブログの観測方程式(1)の$Y_t$の説明変数$X_t$である。$X_t$が得られたことで推定値の精度がよくなることを意味する。