More than 5 years have passed since last update.

Fisher Information Matrix ノート

統計入門

Posted at 2019-02-11

これも自分で導出確認できた範囲でのメモ。統計による推定値がどれくらい正しいか、を評価する際に、推定値の分散の下限をサンプルの分布から計算できる。

推定値

いつも$X$が確率分布$P(x|\Theta)$に従って分布するとして、平均やら分散やら、どうにかなる確率を計算したりする。今、確率分布$P(X|\Theta)$に従う$N$個の観測値$X_1,\cdots,X_N$を得たとき、これらの変数からもとの確率分布のパラメータ$\theta$を推定する問題を考えよう。
伝統的にこの推定値(estimator)を以下のように書くことにする。

\hat{\theta}(X_1,\cdots,X_N)

これらは当然確率分布$P(X|\theta)$に従うので、$P(X_1,\cdots,X_N|\theta)$からその期待値を計算することができる。

E[\hat{\theta}] = \int\cdots\int dX_1\cdots dX_N \hat{\theta}(X_1,\cdots,X_N)p(X_1,\cdots,X_N|\theta)

これは確率分布$P(X|\theta)$のパラメター多$\theta$がパラメータに入っている。

unbiased estimator

この推定値の期待値がパラメータに等しいものをunbiased estimator と呼ぶ。

\theta = E[\hat{\theta}]

Cramér–Raoの不等式

そしてunbiased estimator ともとの分布のパラメータとの間の誤差の期待値を計算すると、推定値の分散の下限を見積もれます。先に結論を書くと、unbiased estimator ともとのパラメータとの差 $\hat{\theta}-\theta$の共分散行列の下限はFisher information matrix の下限で与えられ、それはCramér–Raoの不等式と呼ばれている。自分がノートに書いているやり方で書くと

E[(\hat{\theta}-\theta)(\hat{\theta}-\theta)^t] \geq I^{-1} \\
I = E[\left(\frac{\partial g}{\partial \theta}\right)\left(\frac{\partial g}{\partial \theta}\right)^t] \\
g(\theta) = \frac{\partial}{\partial \theta} \log p(x|\theta)

という感じです。不等号は正定値行列の意味。くどいですかね。$I$がFisher information matrix, $g(\theta)$はlog-likelihood の微分（gradient)です。

証明はunbiased estimator の定義の式の両辺を$\theta$で微分し、$E[\frac{\partial g}{\partial \theta}]=0$であることを強引に用いると

{1} = E\left[ (\hat{\theta}-\theta) \left(\frac{\partial g}{\partial \theta}\right)^t \right]

が得られる。あとはCauchy–Schwarz inequalityより

{1}^2 = \left(E\left[ (\hat{\theta}-\theta) \left(\frac{\partial g}{\partial \theta}\right)^t \right]\right)^2 \leq 
E\left[ (\hat{\theta}-\theta)(\hat{\theta}-\theta)^t \right]
E\left[ \left(\frac{\partial g}{\partial \theta}\right) \left(\frac{\partial g}{\partial \theta}\right)^t \right]

から得られる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up