以前書いたポアソン分布を和で条件付けすると二項分布となるの続き記事です。
まず、確率分布の再生性について。
たとえば、ポアソン分布や正規分布にしたがう確率変数は、変数の和が同じ型の分布にしたがいます。これを和に関する再生性といいます。
\begin{align*}
&X_1 \sim \text{Poisson}(\lambda_1) \ \text{and} \\
&X_2 \sim \text{Poisson}(\lambda_2) \ \text{are independent,} \\
&\text{then}\ W = X_1 + X_2 \sim \text{Poisson}(\lambda_1 + \lambda_2)
\end{align*}
対数正規分布では、変数の積が対数正規分布にしたがいます。こちらは積に関する再生性といいます。
以前の記事では、ポアソン分布の和が決まっているとき、条件付き分布が二項分布になることを証明しました。
証明途中の式
P(X_1=k \mid W=w) = \frac{P(X_1=k)\,P(X_2=w-k)}{P(W=w)} \tag{1}
は、和の再生性をもつ分布の確率質量関数から条件付き分布を求めるのに使えます。
ということで、いくつか試してみましょう!
二項分布の場合
確率パラメータpが等しい二項分布は和の再生性をもちます。
「成功確率pの試行を、独立にn回行ったときの成功回数」が二項分布なので、独立に$n_1$回、さらに独立に$n_2$回行うのは、最初から$n_1+n_2$回行うのと同じだからです。
pが異なると、このようには言えません。
\begin{align*}
&X_1 \sim \text{Binomial}(n_1,p) \ \text{and} \\
&X_2 \sim \text{Binomial}(n_2,p) \ \text{are independent,} \\
&\text{then}\ W = X_1 + X_2 \sim \text{Binomial}(n_1+n_2,p)
\end{align*}
二項分布の確率質量関数
P(X=k) = {_n}\mathrm{C}_k\,p^k\,(1-p)^{n-k} \tag{2}
式(1)に代入&計算していくと、
\begin{align*}
P(X_1=k \mid W=w) &= \frac{{_{n_1}}\mathrm{C}_k\,p^k\,(1-p)^{n_1-k} \times {_{n_2}}\mathrm{C}_{w-k}\,p^{w-k}\,(1-p)^{n_2-(w-k)}}{{_{n_1+n_2}}\mathrm{C}_w\,p^w\,(1-p)^{n_1+n_2-w}} \\
&= \frac{{_{n_1}}\mathrm{C}_k \times {_{n_2}}\mathrm{C}_{w-k}}{{_{n_1+n_2}}\mathrm{C}_w}
\end{align*}
累乗部分がごっそり消えて、二項係数が残りました。
この式は何でしょうか……?
答えは、超幾何分布
これは超幾何分布の確率質量関数です!
超幾何分布については、離散型分布の記事を参照のこと、、
「pが等しい二項分布を和で条件付けすると超幾何分布となる」
X_1 \mid W \sim \text{HyperGeometric}(w, n_1+n_2, n_1)
負の二項分布の場合
確率パラメータpが等しい負の二項分布も和の再生性をもちます。
「成功確率pの試行をr回成功するまで続けたときの失敗回数」が負の二項分布でした。
$r_1$回成功するまでの失敗回数を数え、その後さらに$r_2$回成功するまでの失敗回数を数えるのは、最初から$r_1+r_2$回成功するまで続けて数えても同じですね。
\begin{align*}
&X_1 \sim \text{NegativeBinomial}(r_1,p) \ \text{and} \\
&X_2 \sim \text{NegativeBinomial}(r_2,p) \ \text{are independent,} \\
&\text{then}\ W = X_1 + X_2 \sim \text{NegativeBinomial}(r_1+r_2,p)
\end{align*}
負の二項分布の確率質量関数
P(X=k) = {_{k+r-1}}\mathrm{C}_{r-1}\,(1-p)^k p^r \tag{3}
式(1)に代入&計算していきます。
\begin{align*}
P(X_1=k \mid W=w) &= \frac{{_{k+r_1-1}}\mathrm{C}_{r_1-1}\,(1-p)^k p^{r_1} \times {_{w-k+r_2-1}}\mathrm{C}_{r_2-1}\,(1-p)^{w-k} p^{r_2}}{{_{w+r_1+r_2-1}}\mathrm{C}_{r_1+r_2-1}\,(1-p)^w p^{r_1+r_2}} \\
&= \frac{{_{k+r_1-1}}\mathrm{C}_{r_1-1} \times {_{w-k+r_2-1}}\mathrm{C}_{r_2-1}}{{_{w+r_1+r_2-1}}\mathrm{C}_{r_1+r_2-1}}
\end{align*}
二項係数を展開して計算を続けます。
\begin{align*}
P(X_1=k \mid W=w) &= \frac{\frac{(k+r_1-1)!}{(r_1-1)!\,k!} \times \frac{(w-k+r_2-1)!}{(r_2-1)!\,(w-k)!}}{\frac{(w+r_1+r_2-1)!}{(r_1+r_2-1)!\,w!}} \\
&= \frac{w!}{k!\,(w-k)!} \times \frac{(r_1+r_2-1)!}{(r_1-1)!\,(r_2-1)!} \times \frac{(k+r_1-1)!\,(w-k+r_2-1)!}{(w+r_1+r_2-1)!}
\end{align*}
先頭は${_w}\mathrm{C}_k$です。残りの部分もベータ関数を使って簡潔に表せます。
\mathrm{B}(x,y) = \frac{\Gamma(x)\,\Gamma(y)}{\Gamma(x+y)} = \frac{(x-1)!\,(y-1)!}{(x+y-1)!} \tag{4}
式(4)より、
P(X_1=k \mid W=w) = {_w}\mathrm{C}_k \times \frac{\mathrm{B}(k+r_1,w-k+r_2)}{\mathrm{B}(r_1,r_2)}
まあまあ綺麗な式ですが、見覚えないのが普通でしょう。
君の名は……?
答えは、ベータ二項分布
これはベータ二項分布の確率質量関数です!
ベータ二項分布はベータ分布と二項分布の合成分布です。
つまり、
- $P_1$をベータ乱数$\text{Beta}(\alpha,\beta)$で生成する
- $X_1$を二項乱数$\text{Binomial}(n,P_1)$で生成する
- 1.に戻る(繰り返し)
としたとき、$X_i$はベータ二項乱数$\text{BetaBinomial}(n,\alpha,\beta)$になります。
Wikipediaのページ(日本語版に見つからないので英語版)を貼っておきます。
「pが等しい負の二項分布を和で条件付けするとベータ二項分布となる」
X_1 \mid W \sim \text{BetaBinomial}(w, r_1, r_2)