以下の統計検定2級対策動画で用いられているスライドの一部です。
はじめに
この記事では、統計学を学ぶ上で非常に重要な 正規分布 が持つ性質の中から、特に以下の2つを解説します。
- 再生性 (Reproductivity)
- 標準化 (Standardization)
この記事は、以下のような方を対象としています。
- 統計学の学習を始めたばかりの方
- 正規分布の性質を、具体的な計算例を通して理解したい方
1. 正規分布の再生性
【具体例】 部品の組み立て
ある工場で、2種類の部品PとQを結合して製品を作っています。
それぞれの部品の長さは、正規分布に従うとします。
-
部品Pの長さ $X$
- 平均: 30.0 mm
- 標準偏差: 0.3 mm
-
部品Qの長さ $Y$
- 平均: 25.0 mm
- 標準偏差: 0.4 mm
問: この2つを結合した全長 $W = X+Y$ は、どのような分布に従うでしょうか?
具体例の解説 (1/2)
まず、各部品の分布を数式で表現します。
分散は (標準偏差)² である点に注意しましょう。
-
部品Pの分布
- $X \sim N(30.0, 0.3^2) = N(30.0, 0.09)$
-
部品Qの分布
- $Y \sim N(25.0, 0.4^2) = N(25.0, 0.16)$
このような独立な正規分布の和を考える際に、 正規分布の再生性 という性質が役立ちます。
具体例の解説 (2/2)
正規分布の再生性に基づき、和 $W=X+Y$ の平均と分散を計算します。
1. 平均の計算
$W$ の平均は、元の平均の 和 になります。
$E[W] = E[X] + E[Y] = 30.0 + 25.0 = \textbf{55.0}$
2. 分散の計算
$W$ の分散は、元の分散の 和 になります。
$V[W] = V[X] + V[Y] = 0.09 + 0.16 = \textbf{0.25}$
具体例の結論
結合後の全長 $W$ が従う正規分布は以下のようになります。
- 平均: 55.0 mm
-
分散: 0.25
- (標準偏差は $\sqrt{0.25} = 0.5$ mm)
これを数式で表すと、次のようになります。
$$
W \sim N(55.0, 0.25)
$$
一般化と定義:再生性
今の例を一般化すると、次のように定義できます。
正規分布の再生性
互いに独立な複数の正規分布に従う確率変数の 和 も、また 正規分布 に従うという性質。
- 確率変数 $X \sim N(\mu_X, \sigma_X^2)$
- 確率変数 $Y \sim N(\mu_Y, \sigma_Y^2)$
このとき、和 $W = X+Y$ が従う分布は…
再生性の公式
$$
W \sim N(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2)
$$
- 和の平均 は、元の 平均の和
- 和の分散 は、元の 分散の和
このシンプルな関係性が、再生性の重要なポイントです。
2. 正規分布の標準化
【具体例】 バッテリーの持続時間
あるスマートフォンのバッテリー持続時間 $X$ は、正規分布に従うことが分かっています。
- 平均 $\mu$: 1200 分
- 標準偏差 $\sigma$: 80 分
- 分布: $X \sim N(1200, 80^2)$
問: このスマホを1台選んだ時、バッテリー持続時間が 1300分以上 である確率はどのくらいでしょうか? ($P(X \ge 1300)$)
なぜ標準化が必要か?
平均や分散が異なると、分布の形や位置が変わるため、確率を直接計算するのが困難です。
そこで、これらの異なる分布を 共通のモノサシ で測れるようにする操作が 「標準化」 です。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
x = np.linspace(-10, 20, 1000)
# Different normal distributions
mu_1, sigma_1 = 0, 1
mu_2, sigma_2 = 5, 2
mu_3, sigma_3 = 2, 4
plt.figure(figsize=(10, 6))
plt.plot(x, norm.pdf(x, mu_1, sigma_1), label=f'Mean={mu_1}, Std Dev={sigma_1}')
plt.plot(x, norm.pdf(x, mu_2, sigma_2), label=f'Mean={mu_2}, Std Dev={sigma_2}')
plt.plot(x, norm.pdf(x, mu_3, sigma_3), label=f'Mean={mu_3}, Std Dev={sigma_3}')
plt.title('Various Normal Distributions')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.legend()
plt.grid(True)
plt.show()
具体例の解説 (1/2): 標準化の実行
確率変数 $X$ (元の値) を、標準化された確率変数 $Z$ に変換します。
1. $X=1300$ に対応する $Z$ の値を計算
変換式 $Z = \frac{X - \mu}{\sigma}$ を使います。
$$
Z = \frac{1300 - 1200}{80} = \frac{100}{80} = 1.25
$$
2. 確率の置き換え
これにより、求めたい確率は次のように置き換えられます。
$P(X \ge 1300) = P(Z \ge 1.25)$
具体例の解説 (2/2): 確率の計算
$P(Z \ge 1.25)$ の値は、標準正規分布表 を使って求めます。
- 標準正規分布表より、$P(0 \le Z \le 1.25) \approx 0.3944$
- 全体の右半分の確率は $0.5$ なので…
$P(Z \ge 1.25) = 0.5 - 0.3944 = \textbf{0.1056}$
結論: バッテリー持続時間が1300分以上である確率は 約10.56% です。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
x = np.linspace(-4, 4, 1000)
z_val = 1.25
y = norm.pdf(x, 0, 1)
plt.figure(figsize=(10, 6))
plt.plot(x, y, 'b-')
# Shade the area P(Z >= 1.25)
x_fill = np.linspace(z_val, 4, 500)
y_fill = norm.pdf(x_fill, 0, 1)
plt.fill_between(x_fill, y_fill, color='red', alpha=0.5, label=f'Area = P(Z >= {z_val})')
plt.title('Standard Normal Distribution')
plt.xlabel('Z-score')
plt.ylabel('Probability Density')
plt.axvline(z_val, color='r', linestyle='--', label=f'Z = {z_val}')
plt.legend()
plt.grid(True)
plt.show()
一般化と定義:標準化
今の例を一般化すると、次のように定義できます。
標準化
平均や分散が異なる正規分布を、すべて 平均 0, 分散 1 の 標準正規分布 ($N(0, 1)$) に変換する操作。
この操作により、あらゆる正規分布の確率計算を、標準正規分布表 という一つの表だけで実行できるようになります。
標準化の公式
平均 $\mu$、分散 $\sigma^2$ の正規分布に従う確率変数 $X$ を、標準正規分布に従う確率変数 $Z$ に変換する式は以下の通りです。
$$
Z = \frac{X - \mu}{\sigma}
$$
この操作により、$Z$ は必ず 平均 0、分散 (および標準偏差) 1 の確率変数となります。
まとめ
本日のまとめ
-
再生性
- 独立な正規分布の 和 もまた正規分布に従う。
- 和の 平均 は、元の平均の和。
- 和の 分散 は、元の分散の和。
$$ W \sim N(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2) $$
-
標準化
- あらゆる正規分布を 平均0, 分散1 の共通のモノサシに変換。
- 確率計算が 標準正規分布表 だけで可能になる。
$$ Z = \frac{X - \mu}{\sigma} $$
今後の学習に向けて
今回学んだ 再生性 と 標準化 は、統計学の多くの分野で基礎となる重要な概念です。
- 複数の要因が絡み合う現象のモデル化
- 統計的仮説検定
- 区間推定
など、様々な場面で活用されます。
ぜひマスターしておきましょう。

