なぜ証明をする必要があるのか
全ての確率分布は中心極限定理によって正規分布になると説明があるが、直感的に理解するのでなく、数式を辿ることで確実に理解できると思ったため。あと、logをとって極大値をとる手法は最尤法でも使われるので計算の練習がてら解説しようと思う。
二項分布は以下のように表せる
P_b(x) = {}_nC_x p^x q^{n-x}
logは単調増加関数なので、元の関数p_b(x)の極大値を調べるのと同義である。よく機械学習の最大化問題で使われるね
g(x) = \log P_b(x) = \log \Big(\frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}\Big)
g(x) = \log n! - \log x! - \log(n-x)! + x\log p +(n-x) \log (1-p)
この関数の極大値となる xを求める
微分の定理より *後進差分
h'(x) \fallingdotseq \frac{h(x)-h(x - \Delta x)}{\Delta x}
= \frac{h(x)-h(x-1)}{1}\qquad(\Delta x = 1)
(\log x!)' = \log x! - \log(x - 1)! = \log \frac{x!}{(x-1)!} = \log x
xが十分に大きい時に成り立つ 二項分布の試行回数n→∞にするためxも十分に大きくなるとわかる
(\log x!)' \fallingdotseq \log x
g'(x) = -(\log x!)' - {\log (n - x)!}' + \log p - \log (1 - p)
g'(x) = -\log x + \log (n - x) + \log p - \log (1 - p)
g'(x) = \log \frac{p(n - x)}{x(1 - p)}
g'(x) = 0のとき
\frac{p(n - x)}{x(1 - p)} = 1
np - px = x - px \qquad x = np
x = npで極大値をとることがわかる g'(x)を更に微分して
g''(x) = - \frac{1}{x} + \frac{-1}{n-x} = -\frac{n}{x(n-x)}
g''(u) = - \frac{n}{np(n-np)} = - \frac{1}{np(1-p)} = - \frac{1}{npq}
よって
g'(u) = 0 \qquad g''(u) = - \frac{1}{\sigma^2}
ここでマクローリン展開とテイラー展開の復習
f(x) = f(0) + \frac{f(0)'}{1!}x + \frac{f(0)''}{2!}x^2 + ・・・ + \frac{f(0)^{(n)}}{n!}x^n
個人的な覚え方だけど、マクローリン展開の上式をパターンとして覚えて、テイラー展開は上式をx方向にaだけ並行移動したものと考えればx=a周りのテイラーが完成する
f(x) = f(a) + \frac{f(a)'}{1!}(x-a) + \frac{f(a)''}{2!}(x-a)^2 + ・・・ + \frac{f(a)^{(n)}}{n!}(x-a)^n
本題に戻りg(x)をx=u周りにテイラー展開すると
g(x) = g(u) + \frac{g(u)'}{1!}(x-u) + \frac{g(u)''}{2!}(x-u)^2 + \frac{g(u)^{(3)}}{n!}(x-u)^3 + ・・・
第3項以降は0に近似できるため(x≒uより)また、下の式を代入すると
g'(u) = 0 \qquad g''(u) = - \frac{1}{\sigma^2}
g(x) \fallingdotseq g(u) - \frac{1}{2\sigma^2} (x-u)^2
ここで
g(x) = \log P_b(x)
テイラー展開で求めたg(x)を元の P_b(x)に変換する
\log P_b(x) \fallingdotseq \log P_b(u) + \log exp\Big(-\frac{(x-u)^2}{2\sigma^2}\Big) = \log c ・ exp\Big(-\frac{(x-u)^2}{2\sigma^2}\Big)
よってP_b(x)は以下の形に近づく
P_b(x) = c ・ exp\Big(-\frac{(x-u)^2}{2\sigma^2}\Big)
cの値は確率密度であるための必要条件を適用すると
\int_{-∞}^∞ P_b(x) dx = 1
c = \frac{1}{\sqrt{2π}\sigma}
となる
P_b(x) = \frac{1}{\sqrt{2π}\sigma} exp\Big(-\frac{(x-u)^2}{2\sigma^2}\Big)