7
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

超幾何分布

Posted at

確率分布については、様々な書籍や記事があるのですが、実際に手を動かしてみないと身になさそうだったため、記載してみました。期待値や分散の導出まではやってみましたが、モーメント母関数等については複雑そうだったため諦めています。

超幾何分布 (hypergeometric distribution)

母集団の要素数を $N$, 属性Aの要素数を $M$, 標本の要素数を $n$ とする。標本を非復元抽出した場合、標本に含まれる属性Aの要素数 $x$ とすると、確率変数 $X$ は超幾何分布 $HG(N, M, n)$ に従い、その確率質量関数は、以下の式で表される。

\begin{align}
f(x) &= P(X=x) \\
&= \frac{
  {}_M C_x \dot {}_{N-M} C_{n-x}
}{
  {}_N C_n
} \tag{1}
\end{align}

$x$ は、以下の範囲を満たす整数である。

\max(0, n-(N-M)) \leq x \leq \min(n, M)

期待値と分散は、以下となる。

\begin{align}
E(X) &= n\frac{M}{N} = np \\
V(X) &= n\frac{M}{N}\left(\frac{N-M}{N}\right)\left(\frac{N-n}{N-1}\right) = np(1-p)\left(\frac{N-n}{N-1}\right)
\end{align}

ただし、$p=M/N$ は、母集団における属性Aの比率を表す。

ざっくりした説明

2種類のA, Bからなる $N$ 個のものがあり、Aの個数を $M$ 個とすると、Bの個数は $N-M$ 個となる。この集団から $n$ 個のものを元に戻さずに取得することを考える。$N$ 個のものから $n$ 個のものを取り出す組合せ数は以下で与えられる。

{}_N C_{n} = \frac{N!}{n!(N-n)!} \tag{2}

$n$ 個のうち、$x$ 個がAとなる組合せ数は、$M$ 個から $x$ 個のAを取り出す組合せ数と、$N-M$ 個から $n-x$ 個のBを取り出す組合せ数の積となる。

{}_M C_x \dot {}_{N-M}C_{n-x} = \frac{M!}{x!(M-x)!}\frac{(N-M)!}{(n-x)!((N-M)-(n-x))!} \tag{3}

(3)を(2)で割ることにより、$n$ 個を取り出す全体の組合せ数に対する $x$ 個を取り出す組合せ数の割合となるため、確率質量関数は(1)で表される。

$x$ の最小値は、$n$ がBの個数以下の場合、すべてがBとなり得るため0となる。また、$n$ がBの個数より大きい場合、$n$ からBの個数を引いた $n-(N-M)$ が最小値となる。以上から、$x$ の最小値は、$\max(0, n-(N-M))$ で与えられる。

一方で、$x$ の最大値は、$n$ がAの個数以下の場合、すべてがAとなり得るため $n$ となる。また、$n$ がAの個数より大きい場合、Aの個数 $M$ が最大値となる。以上から、$x$ の最大値は、$\min(n, M)$ で与えられる。

期待値については、$i$ 回目の試行でAならば1, Bならば0となる確率変数 $X_i$ を考える。この期待値は、$E(X_i)=\frac{M}{N}$ で表される。各々の試行は独立ではないものの、$X$ の期待値は $E(X_1 + \dots + X_n)=E(X_1)+\dots+E(X_n)$ で表されるため、$E(X)=n\frac{M}{N}=np$ となり、二項分布と一致する。

分散については、二項分布の分散 $np(1-p)$ に、$n$ が大きくなると0に近づく項 $\frac{N-n}{N-1}$ をかけた値となる。これは、試行回数 $n$ を大きくすると、取り出したものを元に戻さないため、二項分布に比べてばらつきが小さくなることを意味している。$n=1$ の場合、1回のベルヌーイ試行と等しいため、この項は1となり、分散は二項分布 (ベルヌーイ分布) と同じ $p(1-p)$ となる。$n=N$ の場合、必ず$x=M$となるため、この項は0となり、分散も0となる。

二項分布との関係

1個ずつ取り出したものを元に戻さずに $x$ 個のものを取り出す (非復元抽出 (sampling without replacement)) 場合、確率分布は超幾何分布となる。一方、元に戻しながら取り出す (復元抽出 (sampling with replacement)) の場合、確率分布は二項分布となる。

また、$N$ が無限に大きければ、$(N-n)/(N-1)\rightarrow 1$ となるため、超幾何分布の期待値と分散は、二項分布の期待値 $E(X)=np$ と分散 $V(X)=np(1-p)$ に一致する。$N$ が十分大きければ、超幾何分布は二項分布で近似できる。

確率分布であることの確認

二項定理(二項展開)によれば、$(1+t)^N$ を展開した $t^n$ の項の係数は、${}_N C_n$ となる。恒等式

(1+t)^{M}(1+t)^{N-M} = (1+t)^N

における左辺の $t^n$ 項の係数は、それぞれ $t^x$, $t^{n-x}$ の展開係数 ${}_M C_{x}$, ${}_{N-M} C_{n-x}$ の積を $x_L \leq x \leq x_U$ ($x_L = \max(0, n-(N-M))$, $x_U = \min(n, M)$) の範囲で合計したものとなる。以上から、下式が成り立つ。

\sum_{x=x_L}^{x_U} {}_M C_x \dot {}_{N-M}C_{n-x} = {}_N C_n

両辺を ${}_N C_n$ で割れば、$x$ の取り得る範囲の和が1となることが確認できる。

\sum_{x=-\infty}^{\infty} f(x) = \sum_{x=x_L}^{x_U} \frac{{}_M C_x \dot {}_{N-M}C_{n-x}}{{}_N C_n} = 1

期待値の導出

期待値は、$E(X)=\sum xf(x)$ より

\begin{align}
E(X) & = \sum_{x = -\infty}^{\infty} xf(x) \\
& = \sum_{x = x_L}^{x_U} \frac{x \dot {}_M C_x \dot {}_{N-M} C_{n-x}}{{}_N C_n}
\end{align}

$x=0$ の場合、期待値の計算に寄与しないため、$x_L=\max(0,n-(N-M))$ の代わりに $x_L'=\max(1,n-(N-M))$ を用いても同等となる。

E(X) = \sum_{x = x_L'}^{x_U} \frac{x \dot {}_M C_x \dot {}_{N-M} C_{n-x}}{{}_N C_n} \tag{4}

$r \dot {}_n C_r = n \dot {}_{n-1}C_{r-1}$ を利用すると、分母、分子それぞれの項は以下のように表せる。

\begin{align}
x \dot {}_M C_x &= M \dot {}_{M-1}C_{x-1} \\
{}_{N-M}C_{n-x} &= {}_{(N-1)-(M-1)}C_{(n-1)-(x-1)} \\
{}_N C_n &= \frac{N}{n} {}_{N-1}C_{n-1}
\end{align}

これらを(4)に代入すると、以下のようになる。

E(X) = n\frac{M}{N} \sum_{x = x_L'}^{x_U} \frac{{}_{M-1}C_{x-1} \dot {}_{(N-1)-(M-1)}C_{(n-1)-(x-1)}}{{}_{N-1}C_{n-1}}

$x-1$ の取り得る範囲は、$x$ の取り得る範囲から1を引いたものとなる。そのため、$y_L = \max(0, (nー1)-((Nー1)-(Mー1)))$, $y_U = \min(nー1, Mー1)$ とすると、上式は以下のようになる。

E(X) = n\frac{M}{N} \sum_{x-1 = y_L}^{y_U} \frac{{}_{M-1}C_{x-1} \dot {}_{(N-1)-(M-1)}C_{(n-1)-(x-1)}}{{}_{N-1}C_{n-1}}

上記シグマの中の式は、全体が $(N-1)$ 個、Aが $(M-1)$ 個、Bが $((N-1)-(M-1))$ 個の集団から $(x-1)$ 個のものを取り出す超幾何分布の式に等しく、それらを $(x-1)$ の取り得る範囲で合計した値は1となる。以上から、期待値は以下となる。

E(X) = n\frac{M}{N}

分散の導出

分散は、下式で表される。

\begin{align}
V(X) &= E(X^2)-E(X)^2 \\
&= E(X(X-1))+E(X)-E(X)^2 \tag{5}
\end{align}

$E(X(X-1))$ は、以下のように表される。

\begin{align}
E(X(X-1)) & = \sum_{x = -\infty}^{\infty} x(x-1)f(x) \\
& = \sum_{x = x_L}^{x_U} \frac{x(x-1) \dot {}_M C_x \dot {}_{N-M} C_{n-x}}{{}_N C_n}
\end{align}

$x=0, 1$ の場合、期待値の計算に寄与しないため、$x_L=\max(0,n-(N-M))$ の代わりに $x_L''=\max(2,n-(N-M))$ を用いても同等となる。

E(X(X-1)) = \sum_{x = x_L''}^{x_U} \frac{x(x-1) \dot {}_M C_x \dot {}_{N-M} C_{n-x}}{{}_N C_n} \tag{6}

$r \dot {}_n C_r = n \dot {}_{n-1}C_{r-1}$ を利用すると、分母、分子それぞれの項は以下のように表せる。

\begin{align}
x(x-1) \dot {}_M C_x &= M(x-1) \dot {}_{M-1}C_{x-1} \\
&= M(M-1) \dot {}_{M-2}C_{x-2}\\
{}_{N-M}C_{n-x} &= {}_{(N-2)-(M-2)}C_{(n-2)-(x-2)} \\
{}_N C_n &= \frac{N}{n} {}_{N-1}C_{n-1} \\
&= \frac{N(N-1)}{n(n-1)} {}_{N-2}C_{n-2}
\end{align}

これらを(6)に代入すると、以下のようになる。

E(X(X-1)) = n(n-1)\frac{M(M-1)}{N(N-1)}\sum_{x = x_L''}^{x_U} \frac{{}_{M-2} C_{x-2} \dot {}_{(N-2)-(M-2)} C_{(n-2)-(x-2)}}{{}_{N-2} C_{n-2}}

$x-2$ の取り得る範囲は、$x$ が取り得る範囲から2を引いたものとなる。そのため、$y_L' = \max(0, (nー2)-((Nー2)-(Mー2)))$, $y_U' = \min(nー2, Mー2)$ とすると、上式は以下のようになる。

E(X(X-1)) = n(n-1)\frac{M(M-1)}{N(N-1)}\sum_{x-2 = y_L'}^{y_U'} \frac{{}_{M-2} C_{x-2} \dot {}_{(N-2)-(M-2)} C_{(n-2)-(x-2)}}{{}_{N-2} C_{n-2}}

上記シグマの中の式は、全体が $(N-2)$ 個、Aが $(M-2)$ 個、Bが $((N-2)-(M-2))$ 個の集団から $(x-2)$ 個のものを取り出す超幾何分布の式に等しく、それらを $(x-2)$ の取り得る範囲で合計した値は1となる。以上から、$E(X(X-1))$ は以下となる。

E(X(X-1)) = n(n-1)\frac{M(M-1)}{N(N-1)}

(5)に代入すると、分散は以下のように求められる。

\begin{align}
V(X) &= E(X(X-1)) + E(X) - E(X)^2 \\
&= n(n-1)\frac{M(M-1)}{N(N-1)} + n\frac{M}{N} - n^2\frac{M^2}{N^2} \\
&= n\frac{M}{N}\left(\frac{N-M}{N}\right)\left(\frac{N-n}{N-1}\right)
\end{align}

参考

7
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?