「不可能な物を除外していって残った物が…たとえどんなに信じられなくても…それが真相なんだ!!」
($P(x|\theta) = 0$ を与える$\theta$ を除外していって残った$\theta$ が...たとえどんなに$P(\theta)$が低くても...それが$P(\theta|x) = 1$なんだ‼)
(名探偵コナンより)
ベイズ統計学に興味はあるけど、なんとなく接する機会がなかった人は多いと思います。そんなときはOnline、ということで、CourseraでBayesian Statistics: From Concept to Data Analysis (ベイズ統計学:そのコンセプトからデータ解析まで) を受けてみました。
今回は、ベイジアンになりたいけどまだなれていない人たちの一助になることを願って、その1週目の講義 Probability and Bayes' Theorem (確率とベイズの定理) の内容を自分なりにまとめたものを共有したいと思います。
##そもそも確率とは?##
確率は、実は3種類の考え方があります。古典的 (Classical)、頻度論的 (Frequentist)、そして**ベイジアン (Bayesian)**です。
**古典的確率論 (Classical Framework)**では、起こりうる結果は同様に確からしい ことを絶対教義とします。じゃんけんで勝つ確率は常に1/3ですし、A君がBさんに告白して付き合える確率は、「OK or フラれる」の2通りの結果しかないので1/2です。
一方、頻度論者 (Frequentist)は、ある出来事が無限に起こると仮定したとき、そのうちの1つの結果が何度起こったかによって確率を定義します。たとえばじゃんけんを無限回……は無理なので、例えば1000回やったとして、そのうち343回勝ったとしたら、あなたのじゃんけんの勝率は1/3ではなく、343/1000と捉えられます。A君がBさんに告白して付き合える確率は、A君が例えば1000回Bさんに告白したとき、何度OKと言ってもらえたかによって計算できます。
「……って、そんなの計算できんわ!ただ確率計算するためだけに1000回も告白できるか!!」
というA君の叫びが聞こえてきそうですが、実際、多くの場面で確率が必要なのは、未来の結果に対する不確実性を定量したいときです。A君にとって興味があるのは、一体どのくらいの確率でBさんがOKと言ってくれるかであり、もしその確率が低いと推定されれば、そもそも告白しない、という人生を左右する(かもしれない)決定をすることもできます。
頻度論は確率をできるだけ客観的に扱おうとする考え方で、それ自体は科学として大切です。ただ、客観的であれば全てが上手くいくわけではありません。Herbert Lee教授も講義の中で、次のようにバッサリ言っています。
"Sometimes the objectivity is just illusory." (ときに客観性はただの幻想にすぎない。)
ということで、未来の出来事に対する主観的な不確実性を表現する確率が必要になります。ここで、ベイズ統計学 (Bayesian statistics) が大活躍します。ベイズ統計学上では、例えばA君がじゃんけんで勝つ確率は「うーん、なんかあいついつもチョキだすから、グー出しとけば大体勝てるんだよなー」と思っていれば1/3を優に超えていくでしょう。A君がBさんに告白して付き合える確率は、「実はBさんはA君のことが好き」というような事前情報をA君が知っていれば、その確率は1/2から大きく離れたものになります。
このように、ベイジアンの考え方では、ある事象が起こる確率は個人的な主観を反映しており、同じ事象に対しても人によって不確実性が違うという現実を受け入れます。ベイズ統計学はこうした柔軟性を持ちながら、数学のルールを厳密に順守します。それにより、ベイズ統計学は例えばデータ解析において新しい観点を提供することができるのです。
##ベイズの定理 (Bayes' Theorem)##
ベイズの定理は、条件付き確率 (Conditional probability) の公式から簡単に導くことができます。事象Bが起こったと知った後で、事象Aが起こる確率 $P(A|B)$ は、以下のように表現できます。
P(A|B) = \frac{P(A \cap B)}{P(B)}
図解すると以下のようになります。
$P(A \cap B)$ は、AとBが同時に起きる確率ですね。この式の両辺に$P(B)$をかけると、以下のようになります。
P(A|B)P(B) = P(A \cap B)
同様に、事象Bが起きたと知った後に事象Aが起こる確率は、AとBをひっくり返して、以下のように書けます。
P(B|A)P(A) = P(B \cap A)
AとBが同時に起こる確率は、当然BとAが同時に起こる確率に等しいので、上の2つの式の左辺はイコールでつながります。
P(A|B)P(B) = P(B|A)P(A)
両辺を$P(B)$で割ることで、有名なベイズの定理を導くことができます!
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
ベイズの定理の例題
ベイズの定理を使って、**検査陽性のパラドックス (False Positive Paradox)**と呼ばれる、有名な数学の例題を解いてみましょう。
AIDS (Acquired Immune Deficiency Syndrome) は、HIV (Human Immunodeficiency Virus) が人の免疫細胞を破壊することにより起こる免疫疾患であり、日本には約3万人のHIV感染者がいるとされる。これは、日本人全体の0.02%に対応する。あるスクリーニング検査では、HIV患者の検査結果が陽性 (positive)である確率は98%であり、健康な人がこの検査で陰性になる確率は93%である。あなたがこの検査を受けたとき、検査結果は陽性だった。このとき、あなたが実際にHIVに罹患している確率を求めよ。
まず、与えられている数値を条件付き確率として整理しましょう。
\begin{align}
P(+ | HIV) &= 0.98 \\
P(- | noHIV) &= 0.93 \\
P(HIV) &= 0.0002 \\
\end{align}
求めたい確率は $P(HIV | +)$ ですので、上記の確率をベイズの定理に当てはめて計算します。
\begin{align}
P(HIV|+) &= \frac{P(+|HIV)P(HIV)}{P(+)} \\
&= \frac{P(+|HIV)P(HIV)}{P(+|HIV)P(HIV) + P(+|noHIV)P(noHIV)} \\
&= \frac{0.98*0.0002}{0.98*0.0002 + (1-0.93)(1-0.0002)} \\
&= 0.0028 \\
\end{align}
ということで、この検査で陽性が出たとき、あなたが実際にHIVに感染している確率は**0.28%**です。
「えっ……精度98%の検査で陽性なのにこんな確率低いの!?」
と思ってしまいますよね。これが検査陽性のパラドックスです。感覚的に説明すると、この検査の精度98%というのは、
「HIV感染者100人を調べたとき、そのうち98人を正しく感染者だと報告できる」
だけの意味であり、「HIV感染者とそうでない人を調べたときの分類精度」ではないからです。スクリーニングでは多くの健常者が含まれる以上、全体におけるHIV感染者の割合が影響してくるのですね。もちろん、
「いやー、陽性だったけど実際にHIVに感染してる確率が0.97%なら心配いらないな!」
ということではなく、陽性だったら病院でより精密な検査が必要です。あくまで、検査に1度引っかかったときの確率だということに注意しましょう。
##大事な確率分布のまとめ##
ベイズ統計学も統計学である以上、確率分布は大切な武器になります。別記事: 統計学、データ解析でよくでてくる確率分布のまとめに主要な確率分布はまとめてありますので、よろしければそちらをご覧ください。これら確率分布の性質に関する知識をベイズの定理と組み合わせることで、ベイズ推定 (Bayesian inference)などより高い次元でベイズの定理を生かすことが可能になってきます。
## まとめのまとめ ##
- 確率と一言で言っても、古典的、頻度論的、ベイジアンの3つの見方がある。
- ベイズ統計学は、個人の主観的な不確実性を確率として定量化する。
- ベイズ統計学でも、確率分布の知識は大事。
おわりに
ベイジアンになるための、大切な一歩を踏み出しました。この記事が、ベイジアンになりたいけれど、なんとなくまだなれていない人の参考になれば幸いです。
次回は、統計的推定 (Statistical Inference) を扱います。頻度論者 (Frequentist) による推定と、ベイズ推定 (Bayesian inference)を比べます。