離散分布補足
こちらの分布一覧に記載した内容のうち、
離散型分布についての補足事項を「覚え方」とともにまとめます。
覚え方については、なるべく分布一覧の「何を表す確率か」から自然に理解できる記述にしていますので、
分布一覧と見比べながら読んでいただければと思います。
二項分布
ラプラスの定理(Bin≒N)
X{\sim}Bin(n,p)\hspace{5pt}でn大なら\hspace{5pt}X{\sim}N(np,np(1-p))
母比率の検定をはじめ非常によく使う近似で、当然試験でもよく使います。
数学的な証明などはこちら。
思い出し方①
こちらの動画で紹介されているゴルトンボードを使った実験が覚えやすいです。
動画では$p=1/2$で右に振り分ける or 左に振り分ける、という試行を
$n=11$(ゴルトンボードの段数)回繰り返した場合の挙動が確認できます。
結果、分布はかなり正規分布に近いですね。
注ぎ口の真下に落ちた玉は平均すると$np=11/2$回、ピンで右側に弾かれた計算になります。
思い出し方②
上記の①でとりあえず$n$大の時、$Bin$≒$N$さえ覚えておけば、
$\mu=E[X]=np,$ $\sigma^2=V[X]=np(1-p)$ $(X~Bin(n,p))$
から定理を得る事も出来ます。
二項分布の平均・分散は暗記必須だと思いますので、その意味でこちらがオススメ。
思い出し方③
中心極限定理($\bar{X}{\sim}N(\mu,\sigma^2/n)$)を$n$倍した、以下を利用します。
n\bar{X}{\sim}N(n\mu,n\sigma^2)
$X_i{\sim}Ber(p)$とすると、$n\bar{X}{\sim}Bin(n,p)$なので、
$\mu=E[X_i]=p,$ $\sigma^2=V[X_i]=p(1-p)$を代入すれば定理が得られます。
ポアソン分布
二項分布の極限はポアソン分布(Bin≒Po)
X{\sim}Bin(n,p),np=\lambda (一定)\hspace{5pt}でn大なら、X{\sim}Po(\lambda)
数学的な証明などはこちら。
思い出し方①
表が出る確率$p=1/2$のコインを1秒間に2回投げて
表が出た回数$X$を数える、という試行を考えます。
言うまでもなく$X{\sim}Bin(n,p)$なので$E[X]=1$です。
この試行で$np=1$に保って$n$を大きくしながら、表が出る確率と時間の関係を確認してみると
下記の通り、$n$が大きくなるにしたがって「表が出る確率は時刻に依らず一定」に近づく、
すなわち二項分布で表が出る事象がポアソン事象に近づく事が分かります。
「ポアソン事象の発生回数が$x$となる確率」が$\lambda^x e^{-\lambda}/x!$となる事は
上記のように示されるのですね。
思い出し方②
とりあえず$np$一定で$n$大の時、$Bin$≒$Po$さえ覚えておけば、
$\mu=E[X]=np=\lambda$ から上記の関係式を得る事も出来ます。
超幾何分布
分布一覧の「何を表す確率か」にも記載の通りですが
超幾何分布で考えているのは「くじ引きで当たる確率」です。
以下では、
$X{\sim}HG(N,M,n)$,
$X=\Sigma_{i=1}^n X_i$,
$X_i$を$i$番目のくじ引き結果が当たりなら$1,$ はずれなら$0$となる確率変数、
$p=M/N$とします。
母集団が無限に大きい場合は二項分布
X{\sim}HG(N,M,n)\hspace{5pt}でN大なら、X{\sim}Bin(n,p)
覚え方
くじ引きは引くたびに残数$N$が減っていき、当たる確率も変化するのですが、
残数$N$がとても多い場合、当たる確率は毎回一定値$p=M/N$と見做せます。
例)====
10本中2本が当たりのくじ引きを1本ずつ引いていく場合、
最初の人が当たりを引いてしまうと残りの人が当たりを引く可能性はぐっと下がります。
しかし1000本中200本が当たりのくじ引きを1本ずつ引いていく場合だと、
最初の人が当たりを引いたとしても残りの人が当たりを引く可能性はあまり変わりません。
====
上記のように当たる確率が一定と見做せるなら、
そこから$n$本取る試行は二項分布$Bin(n,p)$で考えている試行と全く同じですね。
以上から、母集団が無限に大きい場合($N$大の時)、
超幾何分布は二項分布と見做せる事が理解できると思います。
平均は二項分布と全く同じ
期待値が$np$となる事は下記の通り$X_i$を使えば簡単に確認できます。
$E[X]
= E \left[\sum_i X_i \right]
= \sum_i E[X_i] = n \times M/N
$
ここで、最後に利用した、
E[X_i] はiに依らず一定
は、「くじ引きで当たる確率はくじを引く順番に依らない」という
超幾何分布の重要な性質で、公式解答でも何の説明もなしに使っています(2018年数理2)。
高校数学でも登場しますが一応下記で補足します。
くじ引きで当たる確率はくじを引く順番に依らない、の覚え方
- くじ引きは神の順列。
誰が当たるかは引く順番に依らず神があらかじめ決めている。 - プロ野球のドラフト会議ではくじ引きを引く順番が決められているが、
あれ実は意味ない。 - くじ引きを全員が引き終わった後に一斉に開封する場合を考えれば、
なんとなく不公平感は無くなる? - PTAでくじ引きの順番を決めるくじ引きという無駄な行為に付き合わされましたが、
他人に確率を教えるより無駄な抽選をする方が遥かに早いということで理解しました
こちら
などなど(最後の、面白い)。
なお、こちらでは、実際に当たる確率が変わらない事を確認されています。
分散は二項分布に有限母集団修正がついただけ
有限母集団修正とは、母集団が有限である場合に必要になる下記の補正因子です。
HG(N,M,n)の有限母集団修正 = \frac{N-n}{N-1}
分布一覧に記載の通り、超幾何分布の分散は、
上記の因子を除いて二項分布のものと全く同じです。
なお、これを覚えていないと解けない問題も出題されています(2021人文1)。
有限母集団修正が上記である事の覚え方
大体の式の形は覚えておき、
- 超幾何分布は二項分布よりも精緻($\therefore $有限母集団修正$<1$)
- 母集団に対して、大量に取れば取るほど影響は強い($\therefore N-n$に依存)
- 母集団が無限に大きい時は無視できる($\therefore N-1$で割る)
おまけ:なぜこれを超幾何分布と呼ぶのか
Wikipediaによると、
「確率関数から生まれる列が超幾何数列であることに由来する」
だそうで、要は数学者が他の分野も鑑みていい感じに名付けたようです。
が、学習者にとっては覚えずらすぎます!
自分は「パラメータが$M,N,n$と3つもあって難しそうな所が超幾何関数っぽいから」
で覚えています。
…これはもっといい覚え方募集、ですね。。
負の二項分布
おまけぐらいしか補足事項は無いのですが…。
おまけ:なぜこれを負の二項分布と呼ぶのか
$P(X=x)={}_{x+r-1}C_x p^x (1-p)^r$の時$X$は負の二項分布に従うと言う。
・二項分布 ← 分かる($C$入ってるし)
・負の ← は?($C$の左に$-1$があるから??)
改めて調べてみたところ、
======
まず,二項係数の計算を負の値に拡張した以下の計算をする($_{-k}C_x=...$).これは二項係数を負の値まで拡張したときのまさに負の二項係数であり,これが分布の名前
こちら
======
との事。
自分の覚え方もあながち間違ってないですね。
多項分布
分布一覧に記載の通り、多項分布はクラス分けの分布です。
以下では、$\boldsymbol{X}$を「確率$\boldsymbol{p}$, $\Sigma_{i=1}^{d} X_i=n$ の$d$次元多項分布に従う変数」とします。
すなわち、
$n$はクラス分けの対象となる人数、
$d$はクラスの数($d=\mathrm{dim}(\boldsymbol{X})$)、
$i$はクラスを識別する添え字、
$p_i$は各生徒がクラス$i$に振り分けられる確率、
$X_i$はクラス$i$に振り分けられた人数、
とします。
分割表のカイ二乗検定の元となる分布
まず各$X_i$は二項分布に従います。すなわち、$X_i{\sim}Bin(n,p_i)$です(説明省略)。
よって、$n$大の時、$X_i{\sim}N(np_i, np_i(1-p_i))$ より下記が成り立ちます。
\frac{X_i-np_i}{\sqrt{np_i}} {\sim}N(0,1-p_i) \\
\therefore
\sum_{i=1}^n \frac{(X_i-np_i)^2}{np_i} {\sim}\chi^2 (n-1)
これにより、クラス分けが想定通りの確率$\boldsymbol{p}$で実施されているか、
といった検定が可能となります。
分割表のカイ二乗検定では(理由は深く考えずに)上記の$\Sigma$を計算すればいい、
と学んだ方も多いのではと思いますが、
実はその背景には上記のような近似や多項分布の性質が関係しているのですね。
なお、
・$N(0,1)$ではなく$N(0,1-p_i)$に従う変数の2乗和がなぜ$\chi^2$分布に従うのか
・$\chi^2$分布の自由度はなぜ$n$ではなく$n-1$なのか
といった疑問を持たれた方はイイネやらフォローやらをお願いします。
ある程度需要がありましたらまた別記事にまとめようと思います。
共分散の覚え方
分布一覧にも記載の下記を素早く導く方法を補足します。
\mathrm{Cov}[X_i, X_j]=-np_ip_j
多項定理の両辺を$p_i$, $p_j$ $(i\neq j)$で微分した後に$p_ip_j$を掛けます。
\begin{align}
p_ip_j
\frac{\partial}{\partial p_i}
\frac{\partial}{\partial p_j}
(p_1+\cdots+p_d)^n
& =
p_ip_j
\frac{\partial}{\partial p_i}
\frac{\partial}{\partial p_j}
\left(
\sum_{\boldsymbol{x}} \frac{n!}{x_1!\cdots x_d!} p_1^{x_1}\cdots p_d^{x_d}
\right)
\\
\therefore
p_ip_j
n(n-1)
(p_1+\cdots+p_d)^{n-2}
& =
\sum_{\boldsymbol{x}}
x_i x_j
\frac{n!}{x_1!\cdots x_d!} p_1^{x_1}\cdots p_d^{x_d}
\\
\therefore
n(n-1)p_ip_j
& =
E[X_i X_j]
\hspace{10pt}
\left(
\because
\sum_{i=1}^d p_i =1
\right)
\end{align}
これと、$E[X_i]=np_i$(二項分布と同じ!)より
$\mathrm{Cov}[X_i,X_j]=E[X_iX_j]-E[X_i]E[X_j]=-np_ip_j$ が得られます。