これも自分で導出確認できた範囲でのメモ。統計による推定値がどれくらい正しいか、を評価する際に、推定値の分散の下限をサンプルの分布から計算できる。
推定値
いつも$X$が確率分布$P(x|\Theta)$に従って分布するとして、平均やら分散やら、どうにかなる確率を計算したりする。今、確率分布$P(X|\Theta)$に従う$N$個の観測値$X_1,\cdots,X_N$を得たとき、これらの変数からもとの確率分布のパラメータ$\theta$を推定する問題を考えよう。
伝統的にこの推定値(estimator)を以下のように書くことにする。
\hat{\theta}(X_1,\cdots,X_N)
これらは当然確率分布$P(X|\theta)$に従うので、$P(X_1,\cdots,X_N|\theta)$からその期待値を計算することができる。
E[\hat{\theta}] = \int\cdots\int dX_1\cdots dX_N \hat{\theta}(X_1,\cdots,X_N)p(X_1,\cdots,X_N|\theta)
これは確率分布$P(X|\theta)$のパラメター多$\theta$がパラメータに入っている。
unbiased estimator
この推定値の期待値がパラメータに等しいものをunbiased estimator と呼ぶ。
\theta = E[\hat{\theta}]
Cramér–Raoの不等式
そしてunbiased estimator ともとの分布のパラメータとの間の誤差の期待値を計算すると、推定値の分散の下限を見積もれます。先に結論を書くと、unbiased estimator ともとのパラメータとの差 $\hat{\theta}-\theta$の共分散行列の下限はFisher information matrix の下限で与えられ、それはCramér–Raoの不等式と呼ばれている。自分がノートに書いているやり方で書くと
E[(\hat{\theta}-\theta)(\hat{\theta}-\theta)^t] \geq I^{-1} \\
I = E[\left(\frac{\partial g}{\partial \theta}\right)\left(\frac{\partial g}{\partial \theta}\right)^t] \\
g(\theta) = \frac{\partial}{\partial \theta} \log p(x|\theta)
という感じです。不等号は正定値行列の意味。くどいですかね。$I$がFisher information matrix, $g(\theta)$はlog-likelihood の微分(gradient)です。
証明はunbiased estimator の定義の式の両辺を$\theta$で微分し、$E[\frac{\partial g}{\partial \theta}]=0$であることを強引に用いると
{1} = E\left[ (\hat{\theta}-\theta) \left(\frac{\partial g}{\partial \theta}\right)^t \right]
が得られる。あとはCauchy–Schwarz inequalityより
{1}^2 = \left(E\left[ (\hat{\theta}-\theta) \left(\frac{\partial g}{\partial \theta}\right)^t \right]\right)^2 \leq
E\left[ (\hat{\theta}-\theta)(\hat{\theta}-\theta)^t \right]
E\left[ \left(\frac{\partial g}{\partial \theta}\right) \left(\frac{\partial g}{\partial \theta}\right)^t \right]
から得られる。