方針
超幾何分布とは,赤玉M個,白玉N-M個の箱からn個取り出す時,赤玉がX個である,という離散確率変数Xの分布であり,二項分布の非復元抽出バージョンである.確率密度関数は,
f_X(x)=\frac{{}_MC_x\times{}_{N-M}C_{n-x}}{{}_NC_n},\ \ x=0,...,n
この分布の全確率1と平均分散を求める問題.全確率1については初見で解くのは無理.平均,分散については考え方は二項分布の平均を求めるアプローチと似ているので,先に二項分布について確認しておくことを勧める.
答案
f_X(x)=\frac{{}_MC_x\times{}_{N-M}C_{n-x}}{{}_NC_n},\ \ x=0,...,n
より,全確率1は
\sum_{x=0}^n\frac{{}_MC_x\times{}_{N-M}C_{n-x}}{{}_NC_n}=1
を示せば良い.上式は,
{}_NC_n=\sum_{x=0}^n{}_MC_x\times{}_{N-M}C_{n-x}
と書き換えることができる.ここで,
(a+b)^N=(a+b)^M(a+b)^{N-M}
の両辺を二項展開して
\sum_{n=0}^N{}_NC_na^nb^{N-n}=\sum_{x=0}^M{}_MC_xa^xb^{M-x}\times\sum_{y=0}^{N-M}{}_{N-M}C_ya^yb^{N-M-y}
これはaとbを変数としてもつ恒等式なので,ある項a^nb^{N-n}の係数比較により
\begin{align}
{}_NC_n&= \sum_{x+y=n,0<x,y<n}{}_MC_x\times{}_{N-M}C_y\\
&= \sum_{x=0}^n{}_nC_x\times{}_{N-M}C_{n-x}
\end{align}
次に,平均を求める.
\begin{align}
\mathbb{E}_{X\sim f_X}[X]&= \sum_{x=0}^nx\frac{{}_MC_x\times{}_{N-M}C_{n-x}}{{}_NC_n}\\
&= \sum_{x=1}^nx\frac{{}_MC_x\times{}_{N-M}C_{n-x}}{{}_NC_n}\\
&= \sum_{x=1}^n\frac{(x\times{}_MC_x)\times{}_{N-M}C_{n-x}}{{}_NC_n}\\
&= \sum_{x=1}^n\frac{(M\times{}_{M-1}C_{x-1})\times{}_{(N-1)-(M-1)}C_{(n-1)-(x-1)}}{\frac{N}{n}{}_{N-1}C_{n-1}}\\
&= \frac{nM}{N}\sum_{x=1}^n\frac{{}_{M-1}C_{x-1}\times{}_{(N-1)-(M-1)}C_{(n-1)-(x-1)}}{{}_{N-1}C_{n-1}}\\
&= \frac{nM}{N}\sum_{x'=0}^n\frac{{}_{M-1}C_{x'}\times{}_{(N-1)-(M-1)}C_{(n-1)-x'}}{{}_{N-1}C_{n-1}}\ \ \ \ \ \ (x'=x-1)\\
&= \frac{nM}{N}
\end{align}
次に,分散を求める.
\begin{align}
\mathbb{E}_{X\sim f_X}[X(X-1)]&= \sum_{x=0}^nx(x-1)\frac{{}_MC_x\times{}_{N-M}C_{n-x}}{{}_NC_n}\\
&= \sum_{x=1}^nx(x-1)\frac{{}_MC_x\times{}_{N-M}C_{n-x}}{{}_NC_n}\\
&= \sum_{x=1}^n(x-1)\frac{(x\times{}_MC_x)\times{}_{N-M}C_{n-x}}{_NC_n}\\
&= \sum_{x=1}^n(x-1)\frac{(M\times{}_{M-1}C_{x-1})\times{}_{(N-1)-(M-1)}C_{(n-1)-(x-1)}}{\frac{N}{n}{}_{N-1}C_{n-1}}\\
&= \frac{nM}{N}\sum_{x=1}^n(x-1)\frac{{}_{M-1}C_{x-1}\times{}_{(N-1)-(M-1)}C_{(n-1)-(x-1)}}{{}_{N-1}C_{n-1}}\\
&= \frac{nM}{N}\sum_{x'=0}^nx'\frac{{}_{M-1}C_{x'}\times{}_{(N-1)-(M-1)}C_{(n-1)-x'}}{{}_{N-1}C_{n-1}}\\
&= \frac{nM}{N}\times\frac{(n-1)(M-1)}{N-1}\\
&= \frac{n(n-1)M(M-1)}{N(N-1)}
\end{align}
となるので,
Var(X)=\frac{N-n}{N-1}n\frac{M}{N}(1-\frac{M}{N})
参考文献
- 『現代数理統計学の基礎』(久保川達也 著)