Posted at

離散型分布は怖くない:;(∩´﹏`∩);:

More than 1 year has passed since last update.

 機械学習に必要な高校数学やり直しアドベントカレンダー Advent Calendar 2016の9日目の記事です。

 なるべく怖く見えないよう書こう、と思いこのタイトルにしました! 本当のところは?

 8日目はYU81さんで、指数・対数のお話でした。対数は掛け算を足し算に変えられ、対数線形モデルなどはこの性質を利用しています。指数・対数はとても大事です!


はじめに

 離散型確率分布は高校数学でよく出てくるのに、大学教養の統計では二項分布やポアソン分布以外は扱いが少なめです。

 その中には概念的に既習でも名前を知らないものがあったりするのではないでしょうか?

 というのも、高校数学の教科書では分布の名前を列挙したりしないからです。それをすると暗記モノになってしまい、自ら考えて確率概念の扱いを習得することが重要なので適切な方針だと思います。

 機械学習の教科書などには分布が固有の名前で登場します。読むときに名前と分布が結びついていないと理解しづらい……。

 そこで、この記事は「ああ、こいつが○○分布か!」と思ってもらえれば……というのが狙いです。


世界観

 おっと、変なセクションですね。世界観とは何?

 例によってコイン、サイコロ、玉などが登場してくるわけですが、詳細なキャラ設定を記しておきます。

 ほとんどの人は読み飛ばして大丈夫なはずです。概念に疑義が生じたとき見てください。


公平なコイン

 表・裏が出る確率(期待される割合)が等しいコイン。神のコイン。

 「10回続けて表が出る」こともある。(正確に2の10乗分の1の確率でそうなる。)


コイン

 必ずしも公平でないコイン。ただし、表・裏以外が出ること(直立するなど)はない。

 表と裏の出る確率はそれぞれ決まっている。「最初は表が出やすく、徐々に出にくくなったり」しない。

 こうして書くと公平なコインほどでなくても理想化されているのが分かりますね。


公平なサイコロとサイコロ

 コインと同様なので略。


 赤玉、青玉、白玉、黒玉などがある。赤くて青い玉などはない。

 同じ色の玉同士は原理的に区別できる。言い換えれば玉に番号が刻印されていて各玉の番号を確認できる。

 袋の中から取り出されるとき、どの色・番号の玉も選ばれやすさに違いはない。

 要するに古典的粒子として振舞うということですが。。

 では、いよいよ本論へ……。


二項分布

[問題1]公平なコインを5回続けて投げるとき、表がちょうど2回出る確率

_5\mathrm{C}_2\left(\frac{1}{2}\right)^2\left(\frac{1}{2}\right)^3 = 10 \times \frac{1}{2^5} = \frac{5}{16}

[問題2]赤玉2個、白玉1個が入っている袋から、玉を1個取り出して戻すことを5回行うとき、赤玉がちょうど4回出る確率

{_5}\mathrm{C}_4\left(\frac{2}{3}\right)^4\left(\frac{1}{3}\right) = 5 \times \frac{2^4}{3^5} = \frac{80}{243}

 こういった問題と対応しているのが二項分布(binomial distribution)です。

 もっとフォーマルな言い方で……。結果が成功・失敗のどちらかで成功確率pの試行を、独立にn回行ったときの成功回数は、二項分布に従います。分布を決定するパラメータはnとpです。

 起こる可能性のあるパターンの確率を、成功回数の値ごとにまとめれば確率質量関数になります。k回成功するパターンの場合の数を掛ければいいので、

P(X=k) = {_n}\mathrm{C}_k\,p^k\,(1-p)^{n-k}

と表せます。


ベルヌーイ分布

 nが1の二項分布をベルヌーイ分布(Bernoulli distribution)といいます。

 何のことはなくコイントスそのものです。表にして表すと、

失敗
成功

X
0
1

確率
$1 - p$
$p$


多項分布

[問題3]公平なサイコロを4回続けて投げるとき、1の目が2回、4の目が1回、5の目が1回出る確率

\frac{4!}{2!\,0!\,0!\,1!\,1!\,0!}\left(\frac{1}{6}\right)^2\left(\frac{1}{6}\right)\left(\frac{1}{6}\right) = 12 \times \frac{1}{6^4} = \frac{1}{108}

[問題4]赤玉4個、青玉3個、白玉1個が入っている袋から、玉を1個取り出して戻すことを4回行うとき、赤玉が1回、青玉が2回、白玉が1回出る確率

\frac{4!}{1!\,2!\,1!}\left(\frac{4}{8}\right)\left(\frac{3}{8}\right)^2\left(\frac{1}{8}\right) = 12 \times \frac{4 \times 3^2}{8^4} = \frac{27}{256}

 多項分布(multinomial distribution)は二項分布の多変量版といえます。

 試行結果がm種類ある試行を、独立にn回行ったときの各結果の実現回数は、(m変量)多項分布に従います。分布を決定するパラメータはnと$\{p_1, p_2, ..., p_m\}$です。確率パラメータの合計が1になる制約があります。

 確率質量関数は次の通り。m変量の同時分布ということを意識してください。

P(X_1=k_1,\ X_2=k_2,\ \ldots,\ X_m = k_m) = \frac{n!}{k_1!\,k_2!\,\cdots k_m!}\,{p_1}^{k_1}{p_2}^{k_2}\cdots{p_m}^{k_m}

 二項分布のときの二項係数部分が多項係数になっていますね。

 次の条件を代入して、多項分布が二項分布の自然な拡張になっているのを確認しましょう。

m = 2,\ p_2 = 1 - p_1,\ k_2 = n - k_1


カテゴリカル分布

 nが1の多項分布をカテゴリカル分布(categorical distribution)といいます。

 こいつはいびつなサイコロを投げるイメージです。ベルヌーイ分布の表と見比べるべし。

結果1
結果2
結果3

$X_1$
1
0
0

$X_2$
0
1
0

$X_3$
0
0
1

確率
$p_1$
$p_2$
$p_3$


負の二項分布

[問題5]公平なコインを表が3回出るまで投げ続けるとき、ちょうど6回目で終わる確率

 直前(5回目)までに表が2回、裏が3回出た上で、6回目に表が出る確率なので、

_5\mathrm{C}_2\left(\frac{1}{2}\right)^2\left(\frac{1}{2}\right)^3 \times \frac{1}{2} = 10 \times \frac{1}{2^6} = \frac{5}{32}

[問題6]赤玉2個、白玉1個が入っている袋から、赤玉が3回出るまで玉を取り出して戻すことを続けるとき、ちょうど4回目で終わる確率

{_3}\mathrm{C}_2\left(\frac{2}{3}\right)^2\left(\frac{1}{3}\right) \times \frac{2}{3} = 3 \times \frac{2^3}{3^4} = \frac{8}{27}

 コインを投げ続けるタイプの問題です。

 二項分布では試行回数が固定でしたが、負の二項分布(negative binomial distribution)はその裏返しにあたります。

 成功確率pの試行を独立に、r回成功するまで行い続けたときの失敗回数は、負の二項分布に従います。分布を決定するパラメータはrとpです。

 最後の1回が成功で終わる(直前までにk回失敗)のに注意して、確率質量関数を表すと次のようになります。

P(X=k) = {_{k+r-1}}\mathrm{C}_{r-1}\,(1-p)^k p^r

 文献により意味の揺れがあるので表にまとめておきます。混同を避けるため、負の二項分布というときは定義を明らかにするのをおすすめします。

終了条件
何の分布か
備考

1
r回成功するまで
失敗回数
この記事

2
r回成功するまで
試行回数
1の定義とrずれ

3
r回失敗するまで
成功回数
Wikipedia

4
r回失敗するまで
試行回数
3の定義とrずれ

 また、別名パスカル分布(Pascal distribution)とも呼ばれます。


幾何分布

 rが1の負の二項分布を幾何分布(geometric distribution)といいます。

 このあと登場の超幾何分布とはまったく他人です!

 確率質量関数が「幾何」数列(等比数列)の形をしています。

P(X=k) = (1-p)^k p


超幾何分布

[問題7]赤玉6個、白玉3個が入っている袋から、玉を戻さずに3個取り出すとき、赤玉がちょうど2個出る確率

\frac{{_6}\mathrm{C}_2 \times {_3}\mathrm{C}_1}{{_9}\mathrm{C}_3} = \frac{15 \times 3}{84} = \frac{15}{28}

 一斉に取り出す問題と対応する分布が超幾何分布(hypergeometric distribution)です。

 N個の要素からなる母集団のうち、K個の要素が成功を意味するとし、この母集団から一斉にn個抽出したときに含まれる成功要素の数は、超幾何分布に従います。分布を決定するパラメータはnとNとKです。

 玉を戻す場合と違って最初に入っている数より多い玉は取り出せません。色別にも同じことがいえます。

 確率質量関数は、条件に合うパターンの場合の数を全体のそれで割って、

P(X = k) = \frac{{_K}\mathrm{C}_k \times {_{N-K}}\mathrm{C}_{n-k}}{{_N}\mathrm{C}_n}

と表せます。


多変量超幾何分布

[問題8]赤玉5個、青玉2個、白玉2個が入っている袋から、玉を戻さずに5個取り出すとき、赤玉が2個、青玉が2個、白玉が1個出る確率

\frac{{_5}\mathrm{C}_2 \times {_2}\mathrm{C}_2 \times {_2}\mathrm{C}_1}{{_9}\mathrm{C}_5} = \frac{10 \times 1 \times 2}{126} = \frac{10}{63}

 二項分布を多変量化したものが多項分布でした。超幾何分布でも考えられます。

 多項分布のようなイケてる名前はなく、多変量超幾何分布(multivariate hypergeometric distribution)といいます。

 そんなに使うこともないかと思うのでさらっと……。

P(X_1=k_1,\ X_2=k_2,\ \ldots,\ X_m = k_m) = \frac{{_{K_1}}\mathrm{C}_{k_1} \times {_{K_2}}\mathrm{C}_{k_2} \times \cdots \times {_{K_m}}\mathrm{C}_{k_m}}{{_N}\mathrm{C}_n}


おわりに

 各分布の性質(平均、分散、分布間の関係など)については端折って紹介しました。

 端折った部分を補うために、Wikipediaの項目ページを貼っておきます。

 日本語版? 志ある利用者の方が改善してくれるといいですねえ、、Google翻訳の進化に期待すべきか。。

 もう一つ、koshiさん(@ksmzn)作の、パラメータの値をぐりぐり動かしながら分布の形を見られるサイトです。すごい!

 最後までお読みいただきありがとうございました。