先週末はベイズの定理について軽く触れました。ベイズ統計は万能に使える銀の弾丸ではありません。たとえばガウシアンでない分布にガウシアンモデルを採用する、事前分布に合理性の無い分布を仮定するなどすれば、結果も明らかにおかしくなります。
ベイズ統計で仮定する確率分布について理解していきましょう。幸いなことに確率分布そのものについては以前にも説明しました。
尤度が二項分布に従うケース
ある商店街で連続して女性が 3 人通過した。次の通行人が女性である確率の分布を求めよ。事前の観察から、この地区の商店街で女性が通る確率 θ はベータ分布 Be(2, 2) に従うことが知られている。また通行人はそれぞれ独立であると仮定する (つまり家族連れや友人集団といったものは考慮しない) 。
商店街の通行人の例えは既出ですね。二項分布の B(n, θ) の公式は
\substack{n}C\substack{r}{\theta}^r(1-{\theta})^{n-r}
ですから、連続して女性が 3 人通過する尤度は n=3, r=3 を代入して尤度 = θ^2 です。
このケースでは事前分布にベータ分布 Be(2, 2) を仮定しています。ベータ分布 Be(p, q) とは次の確率密度関数 f(x) を持つ分布です。
f(x) = kx^{p-1}(1-x)^{q-1} \\
ただし k は定数で、 0 \lt x \lt 1, 0 \lt p, 0 \lt q
仮定から p=2, q=2 を代入し事前分布は次のとおりになります。
事前分布 = k{\theta}^{2-1}(1-{\theta})^{2-1}
したがって事後分布は
事後分布 = \frac 1 {30} {\theta}^{5-1}(1-{\theta})^{2-1}
となります。
こうして平均値が大きく女性側 (男性 = 0 、女性 = 1 とすると 1 の側) にずれた分布ができあがりました。
事前分布がベータ分布なら事後分布もベータ分布 Be(5, 2) となるわけです。
平均と分散を求める
このことを考えると、おのずと平均値と分散も求まります。 Be(p, q) の平均は p/(p+q) ですから
\overline θ = \frac 5 {5+2} = \frac 5 7 \approx 0.71
となります。
分散はベータ分布の公式
\frac {pq} {(p+q)^2(p+q+1)}
で求まりますから、事前分布の分散は 1/20 (=0.05) 、事後分布の分散は 5/196 (= 0.026...) です。事後分布の分散のほうが小さくなっているのは、女性が 3 人連続で通過することで、女性が通過する確率 θ の分散が小さくなった、すなわちそれだけ女性が通行する確信の度合いが増したということになるわけです。
尤度が正規分布に従うケース
あるスマートフォンの製品管理チームは自社製品のバッテリーの持ち時間を検査しました。 24 時間を 100 とするとテスト用にサンプリングした 3 台のスマートフォンはそれぞれ 100, 102, 104 となりました。この製品のバッテリーの持ちは正規分布に従うと仮定でき、またその分散は 1 であることがすでに明らかになっています。平均値 μ の分布の平均値は 100 で分散は 1 です。
さっそく尤度を求めます。尤度は分散 1 の正規分布に従うわけですから
尤度 = \frac 1 {\sqrt{2{\pi}}}e^{-\frac {(100-\mu)^2} 2}, \\
\frac 1 {\sqrt{2{\pi}}}e^{-\frac {(102-\mu)^2} 2}, \\
\frac 1 {\sqrt{2{\pi}}}e^{-\frac {(104-\mu)^2} 2}
となります。では事前分布はどうなるでしょうか。
事前分布 = \frac 1 {\sqrt{2{\pi}}}e^{-\frac {(p-100)^2} 2 \\}
事後分布は尤度 x 事前分布なので、平均値 101.5 分散 0.25 の正規分布になります。つまりは事前分布が正規分布なら事後分布も正規分布になるわけです。
尤度が正規分布に従い分散が確定していないケース
テストに使用した 3 台のスマートフォンのバッテリーの持ちはそれぞれ 100, 102, 104 であった。このとき製品の母集団の平均値 μ 分散 σ^2 の分布を調べる。バッテリーの持ちは正規分布に従うと仮定でき、またその分散 σ^2 は平均値 1 分散 1 の分布に従うと仮定できる。また平均値 μ の分布の平均値は 100 で分散は製品の分散 σ^2 の 1/3 です。
分散 σ^2 が確定していない場合、ベイズ統計ではそれも確率変数となり分布を仮定することになります。正規分布に従うデータから得られる尤度に対する分散についての自然な共役分布は逆ガンマ分布になります。
逆ガンマ分布とは確率密度関数 IG(x,α,λ) が次式で表される分布です。
IG(x,\alpha,\lambda) = kx^{-a-1}e^{-\frac \lambda x}
k は定数で λ^α / Γ(α) になります。 なお Γ(α) はガンマ定数です。
このときの分布の平均値と分散を求めてみましょう。それぞれ
\mu = \frac {\lambda} {\alpha-1} , (a>1) \\
\sigma^2 = \frac {\lambda^2} {(a-1)^2(a-2)}, (a>2)
なお逆ガンマ分布の名前はこの分布に従う確率変数 X の逆数 1/X がガンマ分布に従うことに由来します。
それでは尤度はどうなるでしょうか。平均値 μ 、分散 σ^2 というふたつの確率変数を伴いますから
(\frac 1 {\sqrt{2{\pi}}})^3(\frac 1 \sigma)^3 e^{-\frac {8+3(\mu - 102)^2} {2{\sigma}^2}}
平均値 μ の事前分布は、平均値 100 、分散 σ^2 /3 の正規分布を仮定すると良いでしょう。あとは尤度 x 事前分布で事後分布が求まりますから、これで事後分布を算出できます。逆ガンマ分布の公式から求めてみましょう。
まとめ
ベイズ統計の背景にある確率分布の理解の重要性があらためて認識されました。統計分析のために確率分布の理解は避けて通ることはできません。
次回はコードを書いて実際にさまざまなベイズ分類をおこなってみます。
参考
道具としてのベイズ統計
http://www.amazon.co.jp/dp/4534046472