確率分布については、様々な書籍や記事があるのですが、実際に手を動かしてみないと身になさそうだったため、記載してみました。期待値や分散の導出まではやってみましたが、モーメント母関数等については複雑そうだったため諦めています。
超幾何分布 (hypergeometric distribution)
母集団の要素数を $N$, 属性Aの要素数を $M$, 標本の要素数を $n$ とする。標本を非復元抽出した場合、標本に含まれる属性Aの要素数 $x$ とすると、確率変数 $X$ は超幾何分布 $HG(N, M, n)$ に従い、その確率質量関数は、以下の式で表される。
\begin{align}
f(x) &= P(X=x) \\
&= \frac{
{}_M C_x \dot {}_{N-M} C_{n-x}
}{
{}_N C_n
} \tag{1}
\end{align}
$x$ は、以下の範囲を満たす整数である。
\max(0, n-(N-M)) \leq x \leq \min(n, M)
期待値と分散は、以下となる。
\begin{align}
E(X) &= n\frac{M}{N} = np \\
V(X) &= n\frac{M}{N}\left(\frac{N-M}{N}\right)\left(\frac{N-n}{N-1}\right) = np(1-p)\left(\frac{N-n}{N-1}\right)
\end{align}
ただし、$p=M/N$ は、母集団における属性Aの比率を表す。
ざっくりした説明
2種類のA, Bからなる $N$ 個のものがあり、Aの個数を $M$ 個とすると、Bの個数は $N-M$ 個となる。この集団から $n$ 個のものを元に戻さずに取得することを考える。$N$ 個のものから $n$ 個のものを取り出す組合せ数は以下で与えられる。
{}_N C_{n} = \frac{N!}{n!(N-n)!} \tag{2}
$n$ 個のうち、$x$ 個がAとなる組合せ数は、$M$ 個から $x$ 個のAを取り出す組合せ数と、$N-M$ 個から $n-x$ 個のBを取り出す組合せ数の積となる。
{}_M C_x \dot {}_{N-M}C_{n-x} = \frac{M!}{x!(M-x)!}\frac{(N-M)!}{(n-x)!((N-M)-(n-x))!} \tag{3}
(3)を(2)で割ることにより、$n$ 個を取り出す全体の組合せ数に対する $x$ 個を取り出す組合せ数の割合となるため、確率質量関数は(1)で表される。
$x$ の最小値は、$n$ がBの個数以下の場合、すべてがBとなり得るため0となる。また、$n$ がBの個数より大きい場合、$n$ からBの個数を引いた $n-(N-M)$ が最小値となる。以上から、$x$ の最小値は、$\max(0, n-(N-M))$ で与えられる。
一方で、$x$ の最大値は、$n$ がAの個数以下の場合、すべてがAとなり得るため $n$ となる。また、$n$ がAの個数より大きい場合、Aの個数 $M$ が最大値となる。以上から、$x$ の最大値は、$\min(n, M)$ で与えられる。
期待値については、$i$ 回目の試行でAならば1, Bならば0となる確率変数 $X_i$ を考える。この期待値は、$E(X_i)=\frac{M}{N}$ で表される。各々の試行は独立ではないものの、$X$ の期待値は $E(X_1 + \dots + X_n)=E(X_1)+\dots+E(X_n)$ で表されるため、$E(X)=n\frac{M}{N}=np$ となり、二項分布と一致する。
分散については、二項分布の分散 $np(1-p)$ に、$n$ が大きくなると0に近づく項 $\frac{N-n}{N-1}$ をかけた値となる。これは、試行回数 $n$ を大きくすると、取り出したものを元に戻さないため、二項分布に比べてばらつきが小さくなることを意味している。$n=1$ の場合、1回のベルヌーイ試行と等しいため、この項は1となり、分散は二項分布 (ベルヌーイ分布) と同じ $p(1-p)$ となる。$n=N$ の場合、必ず$x=M$となるため、この項は0となり、分散も0となる。
二項分布との関係
1個ずつ取り出したものを元に戻さずに $x$ 個のものを取り出す (非復元抽出 (sampling without replacement)) 場合、確率分布は超幾何分布となる。一方、元に戻しながら取り出す (復元抽出 (sampling with replacement)) の場合、確率分布は二項分布となる。
また、$N$ が無限に大きければ、$(N-n)/(N-1)\rightarrow 1$ となるため、超幾何分布の期待値と分散は、二項分布の期待値 $E(X)=np$ と分散 $V(X)=np(1-p)$ に一致する。$N$ が十分大きければ、超幾何分布は二項分布で近似できる。
確率分布であることの確認
二項定理(二項展開)によれば、$(1+t)^N$ を展開した $t^n$ の項の係数は、${}_N C_n$ となる。恒等式
(1+t)^{M}(1+t)^{N-M} = (1+t)^N
における左辺の $t^n$ 項の係数は、それぞれ $t^x$, $t^{n-x}$ の展開係数 ${}_M C_{x}$, ${}_{N-M} C_{n-x}$ の積を $x_L \leq x \leq x_U$ ($x_L = \max(0, n-(N-M))$, $x_U = \min(n, M)$) の範囲で合計したものとなる。以上から、下式が成り立つ。
\sum_{x=x_L}^{x_U} {}_M C_x \dot {}_{N-M}C_{n-x} = {}_N C_n
両辺を ${}_N C_n$ で割れば、$x$ の取り得る範囲の和が1となることが確認できる。
\sum_{x=-\infty}^{\infty} f(x) = \sum_{x=x_L}^{x_U} \frac{{}_M C_x \dot {}_{N-M}C_{n-x}}{{}_N C_n} = 1
期待値の導出
期待値は、$E(X)=\sum xf(x)$ より
\begin{align}
E(X) & = \sum_{x = -\infty}^{\infty} xf(x) \\
& = \sum_{x = x_L}^{x_U} \frac{x \dot {}_M C_x \dot {}_{N-M} C_{n-x}}{{}_N C_n}
\end{align}
$x=0$ の場合、期待値の計算に寄与しないため、$x_L=\max(0,n-(N-M))$ の代わりに $x_L'=\max(1,n-(N-M))$ を用いても同等となる。
E(X) = \sum_{x = x_L'}^{x_U} \frac{x \dot {}_M C_x \dot {}_{N-M} C_{n-x}}{{}_N C_n} \tag{4}
$r \dot {}_n C_r = n \dot {}_{n-1}C_{r-1}$ を利用すると、分母、分子それぞれの項は以下のように表せる。
\begin{align}
x \dot {}_M C_x &= M \dot {}_{M-1}C_{x-1} \\
{}_{N-M}C_{n-x} &= {}_{(N-1)-(M-1)}C_{(n-1)-(x-1)} \\
{}_N C_n &= \frac{N}{n} {}_{N-1}C_{n-1}
\end{align}
これらを(4)に代入すると、以下のようになる。
E(X) = n\frac{M}{N} \sum_{x = x_L'}^{x_U} \frac{{}_{M-1}C_{x-1} \dot {}_{(N-1)-(M-1)}C_{(n-1)-(x-1)}}{{}_{N-1}C_{n-1}}
$x-1$ の取り得る範囲は、$x$ の取り得る範囲から1を引いたものとなる。そのため、$y_L = \max(0, (nー1)-((Nー1)-(Mー1)))$, $y_U = \min(nー1, Mー1)$ とすると、上式は以下のようになる。
E(X) = n\frac{M}{N} \sum_{x-1 = y_L}^{y_U} \frac{{}_{M-1}C_{x-1} \dot {}_{(N-1)-(M-1)}C_{(n-1)-(x-1)}}{{}_{N-1}C_{n-1}}
上記シグマの中の式は、全体が $(N-1)$ 個、Aが $(M-1)$ 個、Bが $((N-1)-(M-1))$ 個の集団から $(x-1)$ 個のものを取り出す超幾何分布の式に等しく、それらを $(x-1)$ の取り得る範囲で合計した値は1となる。以上から、期待値は以下となる。
E(X) = n\frac{M}{N}
分散の導出
分散は、下式で表される。
\begin{align}
V(X) &= E(X^2)-E(X)^2 \\
&= E(X(X-1))+E(X)-E(X)^2 \tag{5}
\end{align}
$E(X(X-1))$ は、以下のように表される。
\begin{align}
E(X(X-1)) & = \sum_{x = -\infty}^{\infty} x(x-1)f(x) \\
& = \sum_{x = x_L}^{x_U} \frac{x(x-1) \dot {}_M C_x \dot {}_{N-M} C_{n-x}}{{}_N C_n}
\end{align}
$x=0, 1$ の場合、期待値の計算に寄与しないため、$x_L=\max(0,n-(N-M))$ の代わりに $x_L''=\max(2,n-(N-M))$ を用いても同等となる。
E(X(X-1)) = \sum_{x = x_L''}^{x_U} \frac{x(x-1) \dot {}_M C_x \dot {}_{N-M} C_{n-x}}{{}_N C_n} \tag{6}
$r \dot {}_n C_r = n \dot {}_{n-1}C_{r-1}$ を利用すると、分母、分子それぞれの項は以下のように表せる。
\begin{align}
x(x-1) \dot {}_M C_x &= M(x-1) \dot {}_{M-1}C_{x-1} \\
&= M(M-1) \dot {}_{M-2}C_{x-2}\\
{}_{N-M}C_{n-x} &= {}_{(N-2)-(M-2)}C_{(n-2)-(x-2)} \\
{}_N C_n &= \frac{N}{n} {}_{N-1}C_{n-1} \\
&= \frac{N(N-1)}{n(n-1)} {}_{N-2}C_{n-2}
\end{align}
これらを(6)に代入すると、以下のようになる。
E(X(X-1)) = n(n-1)\frac{M(M-1)}{N(N-1)}\sum_{x = x_L''}^{x_U} \frac{{}_{M-2} C_{x-2} \dot {}_{(N-2)-(M-2)} C_{(n-2)-(x-2)}}{{}_{N-2} C_{n-2}}
$x-2$ の取り得る範囲は、$x$ が取り得る範囲から2を引いたものとなる。そのため、$y_L' = \max(0, (nー2)-((Nー2)-(Mー2)))$, $y_U' = \min(nー2, Mー2)$ とすると、上式は以下のようになる。
E(X(X-1)) = n(n-1)\frac{M(M-1)}{N(N-1)}\sum_{x-2 = y_L'}^{y_U'} \frac{{}_{M-2} C_{x-2} \dot {}_{(N-2)-(M-2)} C_{(n-2)-(x-2)}}{{}_{N-2} C_{n-2}}
上記シグマの中の式は、全体が $(N-2)$ 個、Aが $(M-2)$ 個、Bが $((N-2)-(M-2))$ 個の集団から $(x-2)$ 個のものを取り出す超幾何分布の式に等しく、それらを $(x-2)$ の取り得る範囲で合計した値は1となる。以上から、$E(X(X-1))$ は以下となる。
E(X(X-1)) = n(n-1)\frac{M(M-1)}{N(N-1)}
(5)に代入すると、分散は以下のように求められる。
\begin{align}
V(X) &= E(X(X-1)) + E(X) - E(X)^2 \\
&= n(n-1)\frac{M(M-1)}{N(N-1)} + n\frac{M}{N} - n^2\frac{M^2}{N^2} \\
&= n\frac{M}{N}\left(\frac{N-M}{N}\right)\left(\frac{N-n}{N-1}\right)
\end{align}