概要
二項分布(Binomial distribution)は、「成功/失敗」のような二値データ を扱うときに現れる確率分布です。
- $n$ 回の独立試行で、それぞれの成功確率が $p$ のとき、成功回数 $X$ が従う分布。
- 離散型の確率分布であり、確率質量関数(PMF)を持つ。
- 標本サイズが大きくなると、正規分布で近似できる場合がある。
統計的推測(母比率の推定や検定)の基盤となる重要な分布です。
数式
二項分布 $X \sim Bin(n, p)$ の確率質量関数は:
$$
P(X = k) = nCk ; p^k (1-p)^{n-k}, \quad (k=0,1,2,\dots,n)
$$
(ここで $nCk$ は二項係数で、別表記 $C(n,k)$ と同義です。従来の組合せ記号 $\binom{n}{k}$ と同じ意味です。)
期待値と分散は次のようになります:
$$
E[X] = np, \quad \operatorname{Var}(X) = np(1-p)
$$
さらに、標本比率 $\hat{p} = X/n$ を考えると、その期待値と分散は:
$$
E[\hat{p}] = p, \quad \operatorname{Var}(\hat{p}) = \frac{p(1-p)}{n}
$$
数式の説明
-
二項係数 $nCk$
$n$ 回の試行のうち $k$ 回成功する組み合わせの数を表します。
数式は$$
nCk = \frac{n!}{k!(n-k)!}
$$で表されます。
-
確率項 $p^k (1-p)^{n-k}$
それぞれの試行が独立であるため、$k$ 回成功し、残りを失敗する確率はこの積で表されます。 -
二項分布の期待値と分散
成功回数 $X$ の平均は $np$、分散は $np(1-p)$。成功確率が高いほど平均が大きくなり、$p$ が 0.5 に近いと分散も大きくなります。 -
標本比率の定義と性質
標本比率は$$
\hat{p} = \frac{X}{n}
$$で定義され、母比率 $p$ の 不偏推定量 です。
また分散は
$$
Var(\hat{p}) = \frac{p(1-p)}{n}
$$となり、試行回数が増えるほど推定のばらつきは小さくなります。
-
近似の考え方
- $n$ が大きく $p$ が小さいとき → ポアソン分布で近似
- $n$ が大きく $np(1-p)$ が十分大きいとき → 正規分布で近似(中心極限定理に基づく)
問題例
問題1:サイコロの出る確率
サイコロを 10 回振ったとき、「1」が出る回数 $X$ は二項分布に従う。
成功確率 $p = \dfrac{1}{6}$、試行回数 $n=10$。
このとき、ちょうど 2 回「1」が出る確率を求めよ。
解き方
-
分布を確認
$X \sim Bin(10, 1/6)$ -
公式に代入
$$
P(X=2) = 10C2 \left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^8
$$ -
組合せを計算
$$
10C2 = \frac{10!}{2!8!} = 45
$$ -
最終計算
$$
P(X=2) \approx 0.2907
$$
問題2:製品の不良率の検定
ある工場での製品不良率が $p=0.05$ であると仮定。
100 個の製品を抽出したところ、不良品が 8 個見つかった。
この結果は「不良率が 0.05」という仮定と矛盾するといえるか?
解き方
-
仮定を設定
- 帰無仮説:$p=0.05$
- 分布:$X \sim Bin(100, 0.05)$
-
期待値と分散を計算
$$
E[X] = 100\times0.05 = 5
$$$$
Var[X] = 100\times0.05\times0.95 = 4.75
$$$$
\sigma = \sqrt{4.75} \approx 2.18
$$ -
観測値の標準化
$$
Z = \frac{8 - 5}{2.18} \approx 1.38
$$ -
棄却域と比較
両側検定・有意水準 5% の臨界値は $\pm1.96$。
$Z=1.38$ は範囲内 → 棄却できない。 -
結論
「不良率 0.05」と矛盾するとは言えない(有意差なし)。
問題3:母比率の95%信頼区間(導出付き)
あるアンケートで、2100 人中 16% がある商品を支持すると回答した。
母比率 $p$ の 95% 信頼区間を求めよ。
解き方
-
標本比率を計算
$$
\hat{p} = 0.16
$$ -
信頼区間の公式を確認
$$
\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$(ここで $z_{0.025}\approx1.96$)
-
標準誤差を計算
$$
SE = \sqrt{\frac{0.16 \times 0.84}{2100}} \approx 0.008000
$$ -
信頼区間を計算
下限:$$
0.16 - 1.96\times0.008 = 0.144
$$上限:
$$
0.16 + 1.96\times0.008 = 0.176
$$ -
結論
$$
0.144 \le p \le 0.176
$$
なぜこの式になるか(導出の流れ:詳解)
-
標本比率の定義
標本での成功回数を $X$、試行回数を $n$ とすると、標本比率は
$$
\hat{p}=X/n
$$と定義される。
-
標本比率と標本平均は同義
各試行を「成功=1, 失敗=0」とするベルヌーイ変数 $Y_i$ とすると、$$
\hat{p} = \frac{X}{n} = \frac{1}{n} \sum_{i=1}^n Y_i = \overline{Y}
$$すなわち、標本比率は二値データの標本平均そのものである。
そのため「標本平均を標準化する手順」がそのまま「標本比率の標準化」に使える。 -
期待値・分散
$$
E[\hat{p}] = p$(不偏)、 $\operatorname{Var}(\hat{p}) = \dfrac{p(1-p)}{n}
$$ -
中心極限定理(または二項→正規近似)
$n$ が大きければ、標準化された $\hat{p}$ は近似的に標準正規分布に従います:$$
\frac{\hat{p}-p}{\sqrt{\dfrac{p(1-p)}{n}}} \overset{approx}{\sim} N(0,1).
$$ -
両側確率で信頼区間をつくる
95% 信頼区間なので、標準正規の上下 2.5% 点を用いて$$
P\left(-z_{0.025} \le \frac{\hat{p}-p}{\sqrt{\dfrac{p(1-p)}{n}}} \le z_{0.025}\right) \approx 0.95.
$$両側不等式を $p$ について解くと
$$
\hat{p} - z_{0.025}\sqrt{\frac{p(1-p)}{n}} \le p \le \hat{p} + z_{0.025}\sqrt{\frac{p(1-p)}{n}}.
$$ -
実務上の近似(未知の $p$ を $\hat{p}$ で置換)
右辺・左辺に現れる $\sqrt{p(1-p)}$ は母比率 $p$ に依存して未知です。実務ではその代わりに標本比率 $\hat{p}$ を用いて
$\sqrt{\dfrac{p(1-p)}{n}} \approx \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
とし、次の近似的な信頼区間式を得ます:$$
\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}.
$$これが一般に教科書で示される「正規近似による母比率の信頼区間」の導出です。
-
注意点(使用条件)
この近似が妥当であるための経験則として、通常は $n\hat{p} \ge 5$ および $n(1-\hat{p}) \ge 5$(またはより厳密には 10)といった条件を満たすことが望ましいです。今回の例では $n\hat{p}=2100\times0.16=336$ および $n(1-\hat{p})=1764$ なので十分大きく、近似は妥当です。
(補足)小さいサンプルや $\hat{p}$ が極端に 0 や 1 に近い場合は、Wilson 区間や正確二項(Clopper–Pearson)区間など、より良い方法を用いることが推奨されます。