統計学の流派
統計学には主に次のような流派があります。
- F 派 … 統計学の父とも言えるフィッシャー
- NP 派 … 統計的品質管理で知られるネイマンと E. ピアソン
- B 派 … ベイズ統計
前回の続きで、ベイズ統計について追っていきます。
フィッシャー - ネイマン - ピアソン理論
理念的には F 派と NP 派は合致するものではありませんが、双方あわせて「正規分布」「検定」「推定」「分散分析」などの理論を構成します。
きちんと数えることのできる客観的なデータ (頻度) があるときに、それに基づく推論が可能となります。工学、医学、経済学など多くの分野で、機械的な厳密主義として応用されます。
ベイズ統計学
意見や個人の主観、信念など今日のデータは人の世界のものとなっています。たとえばスパムメールの判定などは機械的に厳密に判断するのは難しいです。そのようなとき、データが作られている人の世界にあわせた人の考えるような統計解析が必要であり、それがすなわちベイズ統計学です。これは基本的に確率をもとに理論が展開されます。
ベイズの定理
標本空間 Ω の任意の可測事象 E に実数 P(E) を対応させる。 P(・) を確率、事象列を E_1 E_2 …とする。いま任意の事象 F が与えられたとき次の定理を導きます。
P(E_i|F) = \frac {P(E_i)・P(F|E_i)} {\sum_{j=1}^{\infty}P(E_j)・P(F|E_j)}
ベイズ定理の説明
以下は教科書などにもよく掲載されている、きわめて一般的な例です。
いくつかのツボに赤色と白色の玉がまざって入っている。
このツボのどれかから 1 つの玉を抜き出す。
いま抜き出した玉の色から、どのツボから取り出したかという原因を推定したい。
このように、得られた結果からその原因を推定するということは、現実においても解決が必要とされる問題のひとつです。
ここで得られた結果 H_1 H_2 … H_k を原因とします。
わたしたちが知りたい確率 → P(H_i|A)
(A がおこったとき原因が H_i である確率)
わたちたちが得られた確率 → P(A|H_i)
(原因 H_i に対する結果の確率 P)
これを直接計算するために、ベイズの定理は結果に対する原因の確率 P(H_i|A) を計算する公式を与えます。
P(H_i|A) = \frac {P(H_i)・P(A|H_i)} {{\sum}P(H_j)・P(A|H_j)}
このとき
P(H_i) は原因 H_i の 事前確率 (prior probability)
P(H_i|A) は 事後確率 (posterior probability)
と呼ばれます。
ベイズ定理の例
2 つのツボがあり
ツボ 1 には赤玉が 1 個と白玉が 2 個
ツボ 1 には赤玉が 2 個と白玉が 1 個
入っている。
いまいずれかのツボから玉を 1 つ取り出したら白玉であった。
H_1 をツボ 1 から取り出す事象
H_2 をツボ 2 から取り出す事象
とすると、
いずれのツボを選ぶのも等しい確率なので
事前確率は
P(H_1) = P(H_2) = \frac 1 2
事後確率は
P(H_1|A) = \frac {{\frac 1 2} ・ {\frac 2 3}} {{\frac 1 2} ・ {\frac 2 3} + {\frac 1 2} ・ {\frac 1 3}} = \frac 2 3
\\
P(H_2|A) = \frac {{\frac 1 2} ・ {\frac 1 3}} {{\frac 1 2} ・ {\frac 2 3} + {\frac 1 2} ・ {\frac 1 3}} = \frac 1 3
となります。
ツボ H_1 H_2 が原因で、白い玉を取り出しということが結果となります。
原因に対する確率が事前と事後で 1/2, 1/2 だったのが 2/3, 1/3 に変化したことになります。
ベイズ更新
前段階の事後分布が、次のフェーズすなわち現在においては事前分布の役割を果たすことを ベイズ更新 (Bayesian updating) と言います。
まとめ
例では 2 つのツボから玉を 1 回取り出しただけという単純な例でしたが、現実の問題においては複数の原因から結果を取り出すたびにベイズ更新をして、経験を逐次算入するというプロセスを経ることになります。
今回はベイズ定理の概要と基本的な計算を紹介しました。
参考
入門ベイズ統計―意思決定の理論と発展
http://www.amazon.co.jp/dp/4489020368