以下の統計検定2級対策動画で用いられているスライドの一部です。
まずは具体的な例から見てみよう!
【問題設定】
ある工場で生産される電子部品は、 10% の確率で不良品が発生します。
この部品を無作為に 5個 抽出して検査します。
このとき、 「5個の中に不良品がちょうど2個含まれる確率」 はどれくらいでしょうか?
この例の「前提条件」を整理しよう
この問題設定は、以下の3つの条件を満たしています。
- 結果は「不良品」か「良品」の 2種類 のみ
- 各部品の結果は 互いに独立 している
- 不良品である確率は常に 10% で一定
このような条件を満たす試行を、統計学では ベルヌーイ試行 と呼びます。
ベルヌーイ試行から二項分布へ
- ベルヌーイ試行 を 複数回 (今回は5回)繰り返します。
- そして、 「成功(今回は不良品が出ること)」 が起こる回数に着目します。
このように、 ベルヌーイ試行を $n$ 回繰り返したときの成功回数が従う確率の分布 のことを 二項分布 と呼びます。
【問題1】不良品が「ちょうど2個」の確率は?
5個の中に不良品がちょうど2個含まれる確率 $P(X=2)$ を計算します。
これは、以下の3つの要素を すべて掛け合わせる ことで求められます。
- 5個の中から、不良品となる 2個を選ぶ組み合わせ
- その2個が不良品である 確率
- 残りの3個が良品である 確率
【問題1】計算してみよう
P(X=2) = \underbrace{{}_5\mathrm{C}_2}_{\text{組み合わせ}} \times \underbrace{(0.1)^2}_{\text{2回成功}} \times \underbrace{(1-0.1)^{3}}_{\text{3回失敗}}
- 組み合わせ:${}_5\mathrm{C}_2 = \frac{5 \times 4}{2 \times 1} = 10$
- 2回成功する確率:$(0.1)^2 = 0.01$
- 3回失敗する確率:$(0.9)^3 = 0.729$
$P(X=2) = 10 \times 0.01 \times 0.729 = \mathbf{0.0729}$
答え: 7.29%
【問題2】不良品が「1個以下」の確率は?
「1個以下」とは、次の2つのパターンを指します。
- 「不良品が0個の場合」
- 「不良品が1個の場合」
したがって、それぞれの確率を計算し、最後に足し合わせることで求められます。
$$
P(X \le 1) = P(X=0) + P(X=1)
$$
【問題2】計算してみよう(1)
1. 不良品が0個の確率 $P(X=0)$
$$
P(X=0) = {}_5\mathrm{C}_0 (0.1)^0 (0.9)^{5}
$$
$$
= 1 \times 1 \times 0.59049 = 0.59049
$$
2. 不良品が1個の確率 $P(X=1)$
$$
P(X=1) = {}_5\mathrm{C}_1 (0.1)^1 (0.9)^{4}
$$
$$
= 5 \times 0.1 \times 0.6561 = 0.32805
$$
【問題2】計算してみよう(2)
3. 合計
$$
P(X \le 1) = P(X=0) + P(X=1)
$$
$$
= 0.59049 + 0.32805 = \mathbf{0.91854}
$$
答え: 91.854%
グラフで確率の全体像を見てみよう
5個の部品を抽出したとき、不良品の個数が $k$ 個になる確率 ($k=0, 1, ..., 5$) をグラフで見てみましょう。
不良品が0個または1個である確率が非常に高い ことが視覚的にわかります。
グラフ生成用Pythonコード
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import binom
# Parameters of the binomial distribution
n = 5
p = 0.1
# Possible number of successes (defective items)
k_values = np.arange(0, n + 1)
# Probability mass function (PMF)
probabilities = binom.pmf(k_values, n, p)
# Create the plot
plt.figure(figsize=(10, 6))
plt.bar(k_values, probabilities, color='skyblue', edgecolor='black')
# Add titles and labels
plt.title('Binomial Distribution (n=5, p=0.1)', fontsize=16)
plt.xlabel('Number of Defective Items (k)', fontsize=12)
plt.ylabel('Probability P(X=k)', fontsize=12)
plt.xticks(k_values)
plt.grid(axis='y', linestyle='--', alpha=0.7)
# Show the plot
plt.show()
平均で何個の不良品が見つかる?(期待値)
この検査を何度も繰り返した場合、平均して何個の不良品が見つかるでしょうか?
これを 期待値 と呼び、計算は非常にシンプルです。
- 期待値 $E[X] = (\text{試行回数} \ n) \times (\text{成功確率} \ p)$
$$
E[X] = 5 \times 0.1 = 0.5
$$
平均して 0.5個 の不良品が含まれる ことを意味します。
結果のばらつきはどのくらい?(分散)
結果が期待値(平均)の周りにどれだけばらついているかを示す指標が 分散 です。
こちらの計算もシンプルです。
- 分散 $V[X] = n \times p \times (1-p)$
$$
V[X] = 5 \times 0.1 \times (1 - 0.1) = 0.45
$$
不良品の個数のばらつき度合いが 0.45 である ことを示します。
まとめ:二項分布の定義
ここまでの内容を一般化して定義します。
-
ベルヌーイ試行
- 結果が2種類のみ
- 各試行は独立
- 成功確率 $p$ は一定
-
二項分布
- ベルヌーイ試行を $n$回 繰り返したときの 成功回数 $X$ が従う確率分布。
- $X \sim B(n, p)$ と表記します。
まとめ:二項分布の公式
確率質量関数 (成功回数が $k$ 回になる確率)
$$
P(X=k) = {}_n\mathrm{C}_k p^k (1-p)^{n-k}
$$
期待値(平均)
$$
E[X] = np
$$
分散
$$
V[X] = np(1-p)
$$
さいごに
二項分布は、身の回りの多くの現象をモデル化できる強力なツールです。
- 製品の品質管理
- 選挙の出口調査
- 広告のクリック率
- 薬の治験効果
このスライドが、あなたの統計学の学習の一助となれば幸いです。
