以下の統計検定2級対策動画で用いられているスライドの一部です。
負の二項分布とは?
ある事象が 目標回数 だけ成功するまでに、 何回 の試行が必要になるかを記述する確率分布です。
-
例1:製品検査
- 5個目の不良品が、100回目の検査で発見される確率
-
例2:ゲーム
- 3回目のクリアが、10回目の挑戦で達成される確率
このスライドで学ぶこと
- 具体的な問題を通じた負の二項分布の考え方
- 確率・期待値・分散の計算方法
- 負の二項分布の学術的な定義と公式
- 幾何分布との関係性
Step 1: 具体例から考える
まずは、具体的な問題を通して負の二項分布の考え方を体験しましょう。
問題設定
ある工場で製造される製品の不良品率が 3% であることが分かっています。
検査員が製品を1つずつ検査していくとき、 4個目 の不良品が、 50個目 の検査で発見される確率は?
確率の計算ロジック
「 50個目 の検査で、ちょうど 4個目 の不良品が見つかる」という状況を、2つのステップに分解します。
- 49回目まで の検査で、すでに 3個 の不良品が発見されている
**かつ**
- 50回目 の検査で、 4個目 となる不良品が発見される
この2つの事象が 同時に 起こる確率を計算します。
確率計算の3要素 ①:組み合わせ
まず、「49回の検査の中で、どの3回が不良品だったか」という パターンの数 を計算します。
- これは「組み合わせ」の計算で求められます。
$$
\binom{49}{3} = \frac{49 \times 48 \times 47}{3 \times 2 \times 1}
$$
$$
= 18,424 \text{ 通り}
$$
確率計算の3要素 ② & ③:成功と失敗
次に、成功(不良品)と失敗(良品)がそれぞれ起こる確率を計算します。
-
成功の確率
- 合計で 4回 成功 (不良品を発見)
- 成功確率 $p = 0.03$
- ➔ $(0.03)^4$
-
失敗の確率
- 合計で 46回 失敗 (良品を発見)
- 失敗確率 $1-p = 0.97$
- ➔ $(0.97)^{46}$
最終的な確率計算
3つの要素をすべて掛け合わせることで、求める確率が計算できます。
P = (組み合わせ) × (成功確率) × (失敗確率)
$$
P = \binom{49}{3} \times (0.03)^4 \times (0.97)^{46}
$$
$$
P \approx 18,424 \times 0.00000081 \times 0.2469
$$
$$
\approx 0.00368
$$
確率は約 0.368% となります。
確率の可視化
この結果をグラフで見てみましょう。
グラフは「4個目の不良品が見つかるまでの試行回数」ごとの確率を示します。
50回目 (グラフの赤い点)で発生する確率が、非常に小さいことが視覚的に理解できます。
グラフ生成コード (Python)
以下のコードをGoogle Colaboratoryなどで実行すると、前のスライドのグラフを描画できます。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import nbinom
# Parameters
k = 4 # Number of successes
p = 0.03 # Probability of success
# Generate x values
x = np.arange(k, 301)
y = nbinom.pmf(x, k, p)
# Create plot
plt.figure(figsize=(12, 6))
bars = plt.bar(x, y, color='skyblue', label=f'P(X=x) for k={k}, p={p}')
# Highlight the specific point x=50
x_highlight = 50
if x_highlight in x:
index = np.where(x == x_highlight)[0][0]
bars[index].set_color('red')
plt.scatter(x_highlight, y[index], color='red', zorder=5, label=f'P(X={x_highlight})')
# Add labels and title
plt.title('Negative Binomial Distribution (k=4, p=0.03)')
plt.xlabel('Number of Trials (x)')
plt.ylabel('Probability P(X=x)')
plt.legend()
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()
期待値と分散
確率だけでなく、分布の全体的な特徴も見てみましょう。
-
期待値 (平均)
- 4個の不良品を見つけるのに、 平均して何回 の検査が必要か?
-
分散
- 検査回数の ばらつき はどのくらいか?
期待値と分散の計算例
-
期待値の計算
- (目標成功回数) / (成功確率)
- $4 / 0.03 \approx 133.33$
- ➔ 平均 約133回 の検査が必要。
-
分散の計算
- $\frac{4 \times (1-0.03)}{(0.03)^2} \approx 4311.11$
- ➔ この値が大きいほど、検査回数のばらつきが大きいことを示します。
Step 2: 一般化
ここまでの具体例を、定義と公式でまとめます。
負の二項分布とは
互いに独立なベルヌーイ試行(成功か失敗かの試行)を繰り返すとき、 $k$ 回目 の成功が $x$ 回目 の試行で初めて起こる確率の分布。
-
パラメータ
- $k$: 目標とする成功回数
- $p$: 1回の試行における成功確率
一般式:確率質量関数
$x$ 回目の試行で $k$ 回目の成功が起きる確率 $P(X=x)$ は、以下の一般式で計算されます。
$$
P(X=x) = \binom{x-1}{k-1} p^k (1-p)^{x-k}
$$
これは、先ほどの具体例で行った「組み合わせ × 成功確率 × 失敗確率」の計算を一般化したものです。
一般的な公式:期待値と分散
-
期待値 (平均)
- $k$ 回成功するまでの平均試行回数を示します。
$$
E[X] = \frac{k}{p}
$$
- $k$ 回成功するまでの平均試行回数を示します。
-
分散
- 試行回数のばらつきの大きさを示します。
$$
V[X] = \frac{k(1-p)}{p^2}
$$
- 試行回数のばらつきの大きさを示します。
関連知識:幾何分布との関係
-
幾何分布とは?
- 初めて (1回目)成功するまでの試行回数が従う分布。
-
関係性
- 負の二項分布で、目標成功回数 $k=1$ と設定した場合と全く同じです。
- つまり、 幾何分布は、負の二項分布の特殊なケース と言えます。
まとめ
-
負の二項分布
- 「 $k$ 回 の成功」が「 $x$ 回目 の試行」で起きる確率の分布。
-
確率の計算
- 組み合わせ・成功確率・失敗確率の3つの積で求められる。
-
期待値と分散
- 公式 $E[X] = \frac{k}{p}$ と $V[X] = \frac{k(1-p)}{p^2}$ で計算可能。
-
応用
- 目標達成までの回数や待ち時間などのモデル化に有用。
