以下の統計検定2級対策動画で用いられているスライドの一部です。
1. 具体例から考えてみよう
まず、身近な問題を通して「期待値」と「分散」の考え方に触れてみましょう。
【問題】
ある工場では、製品を1つ作ると 3% の確率で不良品になります。この工場で製品を 200個 作ったとき、含まれる不良品の数は平均で何個になり、その個数にはどれくらいのばらつきがあるでしょうか?
この状況をモデル化する:二項分布
この問題は、 二項分布 という統計モデルで考えることができます。
二項分布が使える条件は以下の通りです。
- 結果が「成功(不良品)」か「失敗(良品)」の2種類
- 成功確率 ( $p$ ) は常に一定 (今回は3%)
- 試行を何度も繰り返す (今回は200回)
- 各試行は互いに独立している
今回の例は、これらの条件をすべて満たしています。
二項分布で状況を整理する
先ほどの問題を、二項分布のパラメータで整理します。
- 試行回数 ( $n$ ): 200回
- 成功確率 ( $p$ ): 0.03
このとき、不良品の数(確率変数 $X$ )は、二項分布 $B(200, 0.03)$ に従う、と表現します。
$$
X \sim B(200, 0.03)
$$
二項分布の可視化
この二項分布 $B(200, 0.03)$ がどのような形をしているか、グラフで見てみましょう。
(1) 期待値 (平均) を計算する
200個の製品のうち、不良品は 平均して何個 くらい出ると期待できるでしょうか?
これは直感的に、全体の個数に不良品率を掛けることで計算できます。
$$
E[X] = \text{試行回数} \times \text{成功確率}
$$
$$
E[X] = 200 \times 0.03 = 6
$$
期待される不良品の数は、およそ 6個 です。
(2) 分散 (ばらつき) を計算する
次に、不良品の数が期待値の「6個」から どれくらいばらつくか を見てみましょう。このばらつきの度合いを示すのが 分散 です。
-
分散 $V[X]$
- 計算式: $E[X] \times (1 - p)$
- $V[X] = 6 \times (1 - 0.03) = 6 \times 0.97 = \textbf{5.82}$
-
標準偏差 $\sigma[X]$ (分散の平方根)
- $\sigma[X] = \sqrt{5.82} \approx \textbf{2.412}$
具体例からの学び
ここまでの具体例から、二項分布に従う確率変数 $X$ の期待値と分散は、以下の簡単な式で計算できます。
-
期待値: $E[X] = n \times p$
-
分散: $V[X] = n \times p \times (1-p)$
2. 一般化と公式の導出
二項分布の定義
改めて、二項分布を一般的に定義します。
- ベルヌーイ試行: 結果が「成功」「失敗」の2択の試行
- 試行回数: $n$
- 成功確率: $p$ (失敗確率は $1-p$ )
- 成功回数: 確率変数 $X$
このとき、$X$ は二項分布 $B(n, p)$ に従います。
成功回数が $k$ 回となる確率は、以下の 確率質量関数 で与えられます。
$$
P(X=k) = {}_n\mathrm{C}_k p^k (1-p)^{n-k}
$$
期待値の公式と導出の方針
二項分布の期待値の公式は、具体例で見た通りです。
$$
E[X] = np
$$
これを、期待値の定義式から導出します。
期待値の定義
$E[X] = \sum_{k} k \cdot P(X=k)$
この定義式に、二項分布の確率質量関数を代入して計算を進めます。
期待値の導出 (1/3): 式のセットアップ
期待値の定義に二項分布の確率質量関数を代入します。
$$
E[X] = \sum_{k=0}^{n} k \cdot {}_n\mathrm{C}_k p^k (1-p)^{n-k}
$$
$k=0$ の項は $0$ になるため、和の範囲を $k=1$ からにしても結果は変わりません。
$$
E[X] = \sum_{k=1}^{n} k \cdot \frac{n!}{k!(n-k)!} p^k (1-p)^{n-k}
$$
期待値の導出 (2/3): 式変形のテクニック
ここで、組み合わせの項を変形するテクニックを使います。
$$
k \cdot {}_n\mathrm{C}_k = k \cdot \frac{n!}{k!(n-k)!} = n \cdot \frac{(n-1)!}{(k-1)!(n-k)!}
$$
\textbf{=} \: n \cdot {}_{n-1}\mathrm{C}_{k-1}
この関係式を元の式に代入し、$np$ を $\sum$ の外に出します。
E[X] = np \sum_{k=1}^{n} {}_{n-1}\mathrm{C}_{k-1} p^{k-1} (1-p)^{n-k}
期待値の導出 (3/3): 二項定理で仕上げ
$j = k-1$ と変数を置き換えると、$\sum$ の中身は 二項定理 の形になります。
E[X] = np \sum_{j=0}^{n-1} {}_{n-1}\mathrm{C}_{j} p^{j} (1-p)^{(n-1)-j}
二項定理
(a+b)^m = \sum_{j=0}^{m} {}_m\mathrm{C}_{j} a^{j} b^{m-j}
$a=p$, $b=1-p$ を適用すると、$\sum$ の部分は $(p + (1-p))^{n-1} = 1^{n-1} = \textbf{1}$ となります。
よって、期待値の公式が導かれます。
$$
E[X] = np \cdot 1 = np
$$
分散の公式と導出の方針
二項分布の分散の公式も、具体例で見た通りです。
$$
V[X] = np(1-p)
$$
この導出には、以下の関係式を利用するのが近道です。
分散の計算公式
$V[X] = E[X^2] - (E[X])^2$
$E[X]=np$ は既知なので、$E[X^2]$ を求めること が目標になります。
分散の導出 (1/5): $E[X(X-1)]$ の計算
$E[X^2]$ を直接計算する代わりに、$E[X(X-1)]$ を先に計算します。
(後で $E[X^2] = E[X(X-1)] + E[X]$ の関係を使うためです)
$$
E[X(X-1)] = \sum_{k=0}^{n} k(k-1) \cdot P(X=k)
$$
$k=0, 1$ の項は $0$ になるため、和は $k=2$ から始めます。
$$
E[X(X-1)] = \sum_{k=2}^{n} k(k-1) \cdot {}_n\mathrm{C}_k p^k (1-p)^{n-k}
$$
分散の導出 (2/5): 式変形のテクニック
期待値の導出と同様に、組み合わせの項を変形します。
k(k-1) \cdot {}_n\mathrm{C}_k = n(n-1) \cdot {}_{n-2}\mathrm{C}_{k-2}
これを代入し、$n(n-1)p^2$ を $\sum$ の外に出します。
E[X(X-1)] = n(n-1)p^2 \sum_{k=2}^{n} {}_{n-2}\mathrm{C}_{k-2} p^{k-2} (1-p)^{n-k}
分散の導出 (3/5): 二項定理の再利用
$j=k-2$ と変数を置き換えると、再び 二項定理 が使えます。
E[X(X-1)] = n(n-1)p^2 \sum_{j=0}^{n-2} {}_{n-2}\mathrm{C}_{j} p^{j} (1-p)^{(n-2)-j}
$\sum$ の部分は $(p + (1-p))^{n-2} = 1^{n-2} = \textbf{1}$ となります。
したがって、
$$
E[X(X-1)] = n(n-1)p^2
$$
分散の導出 (4/5): $E[X^2]$ を求める
目標だった $E[X^2]$ を計算します。
$$
\begin{aligned}
E[X^2] &= E[X(X-1)] + E[X] \
&= n(n-1)p^2 + np
\end{aligned}
$$
これで分散を計算する準備が整いました。
分散の導出 (5/5): 分散公式の完成
最後に、$V[X] = E[X^2] - (E[X])^2$ に代入します。
$$
\begin{aligned}
V[X] &= (n(n-1)p^2 + np) - (np)^2 \
&= (n^2p^2 - np^2 + np) - n^2p^2 \
&= np - np^2 \
&= np(1-p)
\end{aligned}
$$
これで、分散の公式 $V[X] = np(1-p)$ が導出できました。
本日のまとめ
二項分布の期待値と分散の公式、およびその導出を確認しました。
-
期待値: $E[X] = np$
- 平均的に期待される成功回数
-
分散: $V[X] = np(1-p)$
- 期待値からのばらつき度合い
-
導出のポイント
- $k \cdot {}_n\mathrm{C}_k = n \cdot {}_{n-1}\mathrm{C}_{k-1}$ などの組み合わせ変形
- 二項定理 の活用
公式の背景を理解することで、より深い知識として定着させることができます。
