なかなかMCMCが理解できなかった自分がベイズ統計の本や人から教えてもらってはじめて理解できた表現をまとめている自分用メモ。ベイズ統計の基本は色々良い本やサイトがあるので最低限に止めてます。初心者なので間違えにお気づきでしたら指摘頂けると助かります。
##ベイズ統計学とは
- ベイズの定理というたった一つの公式から大抵の理論が導かれる
P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)}
- P(θ)=事前確率、P(θ|D)=事後確率、P(D)=正規化定数(右辺の確率総和を1にしてくれる)、P(D|θ)=尤度
- 母数は確率変数(=分布を持っている)で、モデリングが必要
- 伝統的な統計学では母平均は確定している前提で特定の値が含まれる確率を考えたりしていたが、ベイズでは母平均が分布しているという考えを持つ
- 点数の分布がN(50,10)の試験で80点以上の人は何人いるか?
##MCMC(マルコフモンテカルロ連鎖法)とは
ある確率分布から乱数を取り出すことにより、汎用的な数値積分を実現するための手法
書籍などで初めてこの解説をみたとき全く意味がわかりませんでした(例:確率分布がわかってるのに何のために積分するのか?)
ものすごく噛み砕いて言うと、MCMCはベイズ統計学の計算を色々簡単にしてくれるツール的なもので、期待値を簡単に求めたりできる手法。
例えば下記のような確率密度関数f(x)があったとして、仮に正規分布なら期待値E(X)を簡単に算出できるが、実際の事象はもっと複雑なことが多いので積分するのが大変。
E(x)=\int_{a}^{b}x f(x)dx
ちゃんと積分しないでも点をランダムに打ちまくって点の数を求めれば大体その分布の期待値(E(X))が分かるのでは?という数値積分の考えで、物理学などベイズ統計以外の様々な場面でも使われています。
ちなみに、有限個の乱数を生成して積分することをモンテカルロ積分といいます。例えば1辺が2cmの正方形に内接してる円の面積を求める時、3.14を知らなかったらどうするか。点を打ちまくって円の部分とその外側の点の数の比率を求めれば分かるよということだそうです。ただ、やたらめったらに点を打っていても効率が悪いので、あらかじめそれっぽいと思われる確率分布を調べておいて、その確率分布におさまるよう賢く値が収束していくのがMCMCの良いところ。
ここでさらに疑問がうまれた。**分布が大体わかってるならそんなまどろっこしいことせずにそのパラメータを使えばよくない?**この疑問を解くヒントはベイズの定理にあります。
P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)}
この公式で分母の P(D) をとっぱらって、P(θ|D)はP(θ)P(D|θ) に比例していることまでは比較的簡単に分かります。つまり、事後分布の形はなんとなく分かっている状態なのです。ここから、正確な期待値E(X)を求めたいのでMCMCをやってるわけです。
(つづく。。かも)