当面のシリーズの方向性
本シリーズは、統計検定準1級の問題で筆者が難しいと思ったところなどを、筆者が後から見返したいという目的だけで書く備忘録です。
過去問題の最序盤で最尤推定量の漸近分散の問題が出てきました。しかし解説を読むと「基本的な性質」の一言で終わっているんですね。全然わからないわけです。そこでいろいろ調べたところクラメール・ラオの不等式にたどり着きました。なので、とりあえず備忘録の方向性としてはクラメール・ラオの不等式を理解するところです。
クラメール・ラオの不等式の理解をすることを最初のゴールとする。
高専卒業程度を想定読者とし、離散確率分布、微積分の知識はあるとして記事を書いています。
本記事の目的
漸近分散以前に、最尤推定について筆者が忘れてしまったので、今回はそれを備忘録としてまとめておこうということになります。
最尤推定
パラメータ$\theta$の不明な確率密度関数$f(x, \theta)$からデータ群$X=[x_1, x_2, \cdots, x_n]$が得られたとき, パラメータ$\theta$の最尤推定量$\hat{\theta}$と尤度$L(\theta|X)$の関係は次の通りである.
\frac{\partial}{\partial\theta}\log{L(\hat{\theta}|X)} = 0
最尤推定とは
目の前に適当な確率分布$f(x|\theta)$から得られたいくつかのデータがあるとします。ここで、$\theta$はパラメータといいます。例えば正規分布などでは、平均や分散が変化すると「正規分布」という関数の型は変わりませんが、グラフの形は変化します。このような値をパラメータといいます。 そのため$f(x|\theta)$は, パラメータ$\theta$が決まった上での、という意味を込めて、条件付確率のように表記をしました。
このことから、「これらのデータが正規分布から得られたデータです」とだけ言われても、平均や分散がわからないと具体的な関数は分かりません。これらのデータがどの平均や分散の正規分布から得られたものなのか、一番(=最も)もっとも(=尤も)らしいパラメータを推定する手法を最尤推定(さいゆうすいてい)と呼びます。
導入 - コイン投げ
1つ例を出しましょう。例えばコインを$1000$回投げたとき、表が$800$回出て、このコインは公正なものですと言われたら少し疑うでしょう。公正なら表裏が均一の約$50$%で出るはずですが、現状$80$%の確率で表が出ているので明らかに離れています。よほど運が良くなければ、これでは市販ですという話に対して「もっともだ」とはならないと思います。
では本当にそうでしょうか。表裏$50$%のコインからこの結果が得られる確率は二項分布を思い出すと次式のとおりです。
_{1000}C_{800}\times\left(\frac{1}{2}\right)^{800}\times\left(\frac{1}{2}\right)^{200} = _{1000}C_{800}\times\frac{1}{2^{1000}}
同様に、表$80$%のコインからこの結果が得られる確率は次式のとおりです。
_{1000}C_{800}\times \left(\frac{4}{5}\right)^{800} \times \left(\frac{1}{5}\right)^{200} = _{1000}C_{800}\times\frac{4^{800}}{5^{1000}}
組合せの部分は同じなので、分数部分だけ比較しましょう。値が大きいので対数を取って比較してあげると、$\log_25\approx2.322$より、次のようになります。
\log_2\frac{1}{2^{1000}} = -1000\log_22=-1000
\log_2\frac{4^{800}}{5^{1000}} = 800\log_24-1000\log_25\approx1600-2322=-722
表が$80$%のコインからこの結果が出る確率、約$2^{-722}\times_{1000}C_{800}$の方が高いので、表が出る確率は$50$%よりも$80$%の方があり得そうです。
(対数)尤度と最尤推定
さて、先ほどの例では, 直感的におかしいという話と別に、実際にそれぞれの場合から結果が出る確率を求めることで、どちらの場合から得られる可能性が高いかを比較しました。コイン投げという「二項分布に従った確率」という関数の枠は分かっていましたが、具体的なパラメータとして、提示された情報「表$50$%」に疑問を持ち、仮説である「表$80$%」と比較したことで、「表$80$%」の方が可能性が高いとなったわけです。
では一般的な話に移りましょう。パラメータのわからないある確率分布$f(x, \theta)$からデータ$x$が得られたとします。元の確率分布のパラメータが$\theta$だと推定したときに, そこから$x$が得られる確率は$f(x|\theta)$になります。データを$n$個とった場合には, すべてのデータ$X = [x_1, x_2, \cdots, x_n]$が実際に得られる確率を計算すると次式のようになります。ただし, $\prod$は, 積記号と呼ばれるもので, すべての$f(x_i|\theta)$の積という意味になります。
L(\theta|X) = \prod_{i}f(x_i|\theta)
データ群$X = [x_1, x_2, \cdots, x_n]$が確かにパラメータが$\theta$の関数から得られたものであろう確率$L(\theta|X)$のことを、その尤もらしさという意味で尤度(ゆうど)と呼びます。
さて、確率が高い方が推定したパラメータが真に近い訳です。そのため, この尤度が最大となる推定値$\hat{\theta}$を求める手法を最尤推定になります。この時の推定値$\hat{\theta}$をパラメータ$\theta$の最尤推定量と呼びます。
ところで、先ほどの例では確率を求めるとあまりにも小さい値になるので対数比較を行いました。尤度の式は確率の積のためデータの数が大きくなるにつれて非常に小さくなり、コンピュータ上で扱う際などに困ります。対数比較でも大小関係は変化しないので, 尤度ではなく対数尤度$\log{L(\theta|X)}$の最大となる$\hat{\theta}$を求めれば良いことになります。
対数尤度が最大となる$\theta$を求める方法ですが、これは微分値が最大のところで$0$になることを利用します。
そのため, 最尤推定量と対数尤度に関して、次の等式が成立するというわけです。
\frac{\partial}{\partial\theta}\log{L(\hat{\theta}|X)} = 0
最尤推定
パラメータ$\theta$の不明な確率密度関数$f(x, \theta)$からデータ群$X=[x_1, x_2, \cdots, x_n]$が得られたとき, パラメータ$\theta$の最尤推定量$\hat{\theta}$と尤度$L(\theta|X)$の関係は次の通りである.
\frac{\partial}{\partial\theta}\log{L(\hat{\theta}|X)} = 0
おまけ:スコア関数とフィッシャー情報量
対数尤度$\log L(\theta|X)$の微分が$0$になるときのパラメータがその最尤推定量でした。
つまり, 結局評価しているのは対数尤度のパラメータ$\theta$による偏微分値ということになります。評価関数という意味合いで, スコア関数と呼びます。
スコア関数
対数尤度のパラメータ$\theta$による偏微分をスコア関数と呼び, $S(\theta|X)$で表す.
S(\theta|X) = \frac{\partial}{\partial\theta}\log{L(\theta|X)}
また, スコア関数の分散をフィッシャー情報量と呼びます。1。
フィッシャー情報量
スコア関数の分散をフィッシャー情報量と呼び, $I(\theta)$で表す.
I(\theta) = V\left[S(\theta|X)\right] = E\left[S(\theta|X)^2\right]
おわりに
今回は最尤推定を思い出しつつまとめてみました。
次回は証明にあたり必要な知識についてまとめていく予定です。
-
なぜ分散が二乗平均と一致するのか, そもそも定義は分散なのか二乗平均なのか, 不明点が多いので追って追記いたします。 ↩