※「現代数理統計学の基礎」の第3章「代表的な確率分布」の第1節「離散確率分布」
- データの背後にある確立モデルを構築するときには、問題に適した確率分布を想定して推測することが望ましい。
- 支持する人数や死亡数のように計数データの分布を離散確率分布という。これに対して、連続変数を扱う分布を連続確率分布という。
- それぞれの分布の特徴を理解し、場面場面に応じて適した確率分布を用いる必要がある。
- 本記事では離散確率分布を紹介する。
代表的な離散確率分布
- 離散一様分布
- 2項分布
- ポアソン分布
- 幾何分布
- 負の2項分布
- 超幾何分布
3.1.1 離散一様分布
$N$ を正の整数とする。離散型確率変数 $X$ が
$$ P(X = x \ | \ N) = \frac{1}{N}, x = 1, 2, ..., N $$
なる確率関数をもつとき、 $X$ は $ \{ 1, 2, ..., N \}$ 上の離散一様分布に従う。
$$ E[X] = \frac{1}{N} \sum^N_{x = 1} x = \frac{N+1}{2}, E[X^2] = \frac{1}{N} \sum^N_{x = 1} x^2 = \frac{(N+1)(2N+1)}{6} \
Var(X) = \frac{(N+1)(N-1)}{12} $$
3.1.2 2項分布
2項分布はベルヌーイ試行に基づいた分布。ベルヌーイ試行とは $p$ の確率で'成功'、$1-p$ の確率で'失敗'する実験を行うこと。このとき、確率関数は
$$ P(X=x \ | \ p) = \left \{ \begin{array}{cc} p & (x=1 \ のとき)\\ 1-p & (x=0 \ のとき) \end{array} \right. $$
これをベルヌーイ分布といい、 $Ber(p)$ で表す。
ベルヌーイ試行を独立に $n$ 回行ったときの'成功'の回数の分布が2項分布となる。$i = 1, 2, ..., n$ に対して、確率変数 $X_i$ を
$$ X_i = \left \{ \begin{array}{cc} 1 & ('成功'のとき) \\ 0 & ('失敗'のとき) \end{array} \right. $$
とすると、$n$ 回の試行のうち '成功' の回数は $Y = \sum^n_{i=1} X_i$ と表され、$Y$ の取りうる値の集合(標本空間)は $ \{0, 1, ... , n \}$ となる。
$ k=0, 1, ... , n $ に対して、$k$ 回 '成功' 、$(n-k)$ 回 '失敗' となる確率 $ P(Y = k) $ は
$$ P(Y=k) = {}_n C_k \ p^k (1-p)^{n-k} $$
ここで、 $ {}_n C_k $ は
$$ {}_n C_k = \frac{n!}{k! (n-k)!} = \left ( \begin{array}{c} n \\ k\end{array} \bigg) \right. $$
と表され、2項係数 と呼ばれる。したがって $Y=k$ となる確率は
$$ P(Y=k \ | \ n,p) = \left ( \begin{array}{c} n \\ k\end{array} \bigg) \right. p^k (1-p)^{n-k}, k = 0,1,...,n $$
これを2項分布といい、$Bin(n,p)$ で表す。
▶︎命題 3.1
$$ E[X] = np \\ Var(X) = np(1-p) \\
G_X(s) = (ps + 1 - p)^n (確率母関数) \
M_X(t) = (pe^t + 1 - p)^n (積率母関数) \\
\varphi_X(t) = (pe^{it} + 1 - p)^n (特性関数) $$
[証明]
$$ \begin{align} G_X(t) = E[s^X] &= \sum^n_{k=0} s^k \left ( \begin{array}{c} n \\ k\end{array} \bigg) \right. p^k (1-p)^{n-k} \\ &= \sum^n_{k=0} \left ( \begin{array}{c} n \\ k\end{array} \bigg) \right. (ps)^k (1-p)^{n-k} = (ps + 1 - p)^n \end{align} \
M_X(t) = G_X(e^t), \ \varphi_X(t) = M_X(it) \
E[X] = G'_X(1) = np \
\begin{split}
Var(X) &= E[X(X-1)] + E[X] - (E[X])^2 \\
&= G''_X(1) + E[X] - (E[X])^2 = np(1-p)
\end{split}$$
3.1.3 ポアソン分布
'稀な現象の大量観察'によって発生する現象の個数の分布を表す時にポアソン分布が用いられる。
**(例)**ある都市の1日に起こる交通事故の件数、肺がんで亡くなる人数
稀な現象が起こる個数を $X$ で表し、$X$ の確率関数が
$$ P(X=k \ | \ \lambda) = \frac{\lambda^k}{K!} e^{-\lambda}, \ k = 0, 1, 2, ..., $$
で与えられる確率関数をポアソン分布といい、$P_O(\lambda)$ で表す。ここで、$\lambda > 0 $ は強度と呼ばれるパラメータであり、稀な現象が起こる回数の平均を表している。
▶︎命題 3.2
$$ E[X] = Var(X) = \lambda \
G_X(s) = \exp \{(s-1)\lambda \} (確率母関数) \
M_X(t) = \exp \{(e^t - 1) \lambda \} (積率母関数) \
\varphi_X(t) = \exp \{(e^{it} - 1) \lambda \} (特性関数) $$
[証明]
$$ G_X(s) = E[s^X] = \sum^\infty_{k=0} s^k \frac{\lambda^k}{k!} e^{-\lambda} = e^{\lambda s - \lambda} \sum^\infty_{k=0}\frac{(\lambda s)^k}{k!} e^{-\lambda s} = e^{(s-1)\lambda} \
M_X(t) = G_X(e^t), \ \varphi_X(t) = M_X(it) \
E[X] = G'_X(1) = \lambda \
\begin{split}
Var(X) &= E[X(X-1)] + E[X] - (E[X])^2 \\
&= G''_X(1) + E[X] - (E[X])^2 = \lambda
\end{split}$$
2項分布の $Bin(n,p)$ において、ポアソン分布の前提である'大量観察'とは $n$ が極めて大きいことを意味し、'稀な現象'とが $p$ が極めて小さいことを意味する。$np=\lambda$ が一定とする条件で、$n \to \infty, \ p \to 0$ とすると、2項分布はポアソン分布に近づいていく。
▶︎補題 3.3
$a$ に収束する点列 $a_1, a_2, ...$ に対して次の式が成り立つ。
$$ \lim_{n \to \infty} \Big(1+ \frac{a_n}{n} \Big)^n = e^a $$
▶︎命題 3.4
$np=\lambda$ のもとで、$n \to \infty, \ p \to 0$ とすると、2項分布 $Bin(n,p)$ はポアソン分布 $P_O(\lambda)$ に収束する。
[証明]
$Bin(n,p)$ の特性関数 $\varphi_X(t) = (pe^{it} + 1 - p)^n$ は、$p=\lambda / n$ と補題 3.3 より
$$ \lim_{n \to \infty} \bigg(1+ \frac{(e^{it} - 1) \lambda}{n} \bigg)^n = \exp \{(e^{it} - 1) \lambda \} $$
この極限値は $P_O(\lambda)$ の特性関数であるから、連続性定理より2項分布がポアソン分布に収束することがわかる。
3.1.4 幾何分布
'成功' 確率 $p$ のベルヌーイ試行を独立に行っていき、初めて'成功'するまでに要した'失敗'の回数を $X$ とするとき、$X$ の分布が幾何分布となる。$X=k$ となる確率は
$$ P(X=k \ | \ p) = p(1-p)^k, \ k = 0, 1, 2, ..., $$
これを幾何分布といい、$Geo(p)$ で表す。
▶︎命題 3.5
$q=1-p$ とおく。
$$ E[X] = \frac{q}{p}, \ Var(X) = \frac{q}{p^2} \
G_X(s) = \frac{p}{1-qs} (s < \frac{1}{q}) (確率母関数)$$
[証明]
$$ G_X(s) = E[X^s] = \sum^\infty_{k=0} s^k pq^k = \sum^\infty_{k=0} p(qs)^k = \frac{p}{1-qs} \
E[X] = G'_X(1) = \frac{q}{p} \
Var(X) = E[X(X-1)] + E[X] - (E[X])^2 = \frac{q}{p^2} $$
幾何分布には無記憶性と呼ばれる性質がある。これは $s$ 回までの試行において'成功'していないという条件のもとで次の $t$ 回までの試行で'成功'しない確率は、$s$ 回まで'成功'していないという条件には依存しないということ。つまり、初めて'成功'するという現象はランダムに起こることを意味している。
▶︎命題 3.6
$s$ と $t$ を非負の整数とし、$X$ は幾何分布 $Geo(p)$ に従うとする。
$$ P(X \ge s+t \ | \ X \ge s) = P(X \ge t) $$
[証明]
$P(X \ge s) = q^s$ より、条件付き確率は
$$
\begin{align}
P(X \ge s+t \ | \ X \ge s) &= \frac{P(X \ge s+t, X \ge s)}{P(X \ge s)} = \frac{P(X \ge s+t)}{P(X \ge s)} \
&= \frac{q^{s+t}}{q^s} = q^t = P(X \ge t)
\end{align} $$
3.1.5 負の2項分布
'成功'確率が $p$ のベルヌーイ試行について、$r$ 回'成功'するまでに要した'失敗'の回数を $X$ とするとき、$X$ の分布が負の2校分布となる。'成功'を $r$ 回、'失敗'を $k$ 回するとき、最後は必ず'成功'で終わるので確率分布は
$$ P(X=k \ | \ r,p) = \left ( \begin{array}{c} r+k-1 \\ k\end{array} \bigg) \right. \ p^r q^k, k = 0, 1, 2, ..., $$
この分布を負の2項分布といい、$NB(r,p)$ と書く。
▶︎命題 3.7
$$ E[X] = \frac{rq}{p}, Var(X) = \frac{rq}{p^2} \
G_X(s) = \frac{p^r}{(1-sq)^r} (s < \frac{1}{q}) (確率母関数)$$
[証明]
$$ \frac{1}{1-q} = 1 + q + q^2 + \cdots = \sum^\infty_{k=0} q^k $$
これを $r-1$ 回微分すると
$$ \frac{(r-1)!}{(1-q)^r} = \sum^\infty_{k=0} (k+r-1) \cdots (k+1) q^k \
\therefore 1 = \sum^\infty_{k=0} \frac{(k+r-1) \cdots (k+1)}{(r-1)!} (1-q)^r q^k = \sum^\infty_{k=0} \left ( \begin{array}{c} r+k-1 \\ k\end{array} \bigg) \right. \ p^r q^k $$
となり、確率分布が得られる。
$$ \begin{align}
G_X(s) &= E[s^X] = \sum^\infty_{k=0} s^k \left ( \begin{array}{c} r+k-1 \\ k\end{array} \bigg) \right. \ p^r q^k \\
&= \frac{p^r}{(1-sq)^r} \sum^\infty_{k=0} \left ( \begin{array}{c} r+k-1 \\ k\end{array} \bigg) \right. (1-sq)^r (sq)^k = \frac{p^r}{(1-sq)^r}
\end{align} \
E[X] = G'_X(1) = \frac{rq}{p} \
Var(X) = E[X(X-1)] + E[X] - (E[X])^2 = \frac{rq}{p^2} $$
3.1.6 超幾何分布
$M$ 個の赤いボールと $N-M$ 個の白いボールが入っている壺の中から $K$ 個のボールを無作為に非復元抽出で抽出したところ、$X$ 個が赤いボールであったとする。このとき、$X$ の確率分布は
$$ P(X=x \ | \ N,M,K) = \frac{\left ( \begin{array}{c} M \\ x \end{array} \bigg) \right. \left ( \begin{array}{c} N-M \\ K-x \end{array} \bigg) \right.}{\left ( \begin{array}{c} N \\ K \end{array} \bigg) \right.}, x = 0, 1, ..., K $$
これを超幾何分布という。
▶︎命題 3.8
$p= M/N$ に対して、
$$ E[X] = Kp, Var(X) = \frac{N-K}{N-1} Kp(1-p) $$
参考文献
- 久保川達也 「現代数理統計学の基礎」 共立出版
- さまざまな確率分布まとめ