0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

正規分布の「再生性」と「標準化」を理解する_統計検定2級対策

0
Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。

はじめに

この記事では、統計学を学ぶ上で非常に重要な 正規分布 が持つ性質の中から、特に以下の2つを解説します。

  • 再生性 (Reproductivity)
  • 標準化 (Standardization)

この記事は、以下のような方を対象としています。

  • 統計学の学習を始めたばかりの方
  • 正規分布の性質を、具体的な計算例を通して理解したい方

1. 正規分布の再生性


【具体例】 部品の組み立て

ある工場で、2種類の部品PとQを結合して製品を作っています。
それぞれの部品の長さは、正規分布に従うとします。

  • 部品Pの長さ $X$

    • 平均: 30.0 mm
    • 標準偏差: 0.3 mm
  • 部品Qの長さ $Y$

    • 平均: 25.0 mm
    • 標準偏差: 0.4 mm

問: この2つを結合した全長 $W = X+Y$ は、どのような分布に従うでしょうか?


具体例の解説 (1/2)

まず、各部品の分布を数式で表現します。
分散は (標準偏差)² である点に注意しましょう。

  • 部品Pの分布

    • $X \sim N(30.0, 0.3^2) = N(30.0, 0.09)$
  • 部品Qの分布

    • $Y \sim N(25.0, 0.4^2) = N(25.0, 0.16)$

このような独立な正規分布の和を考える際に、 正規分布の再生性 という性質が役立ちます。


具体例の解説 (2/2)

正規分布の再生性に基づき、和 $W=X+Y$ の平均と分散を計算します。

1. 平均の計算
$W$ の平均は、元の平均の になります。
$E[W] = E[X] + E[Y] = 30.0 + 25.0 = \textbf{55.0}$

2. 分散の計算
$W$ の分散は、元の分散の になります。
$V[W] = V[X] + V[Y] = 0.09 + 0.16 = \textbf{0.25}$


具体例の結論

結合後の全長 $W$ が従う正規分布は以下のようになります。

  • 平均: 55.0 mm
  • 分散: 0.25
    • (標準偏差は $\sqrt{0.25} = 0.5$ mm)

これを数式で表すと、次のようになります。

$$
W \sim N(55.0, 0.25)
$$


一般化と定義:再生性

今の例を一般化すると、次のように定義できます。

正規分布の再生性
互いに独立な複数の正規分布に従う確率変数の も、また 正規分布 に従うという性質。

  • 確率変数 $X \sim N(\mu_X, \sigma_X^2)$
  • 確率変数 $Y \sim N(\mu_Y, \sigma_Y^2)$

このとき、和 $W = X+Y$ が従う分布は…


再生性の公式

$$
W \sim N(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2)
$$

  • 和の平均 は、元の 平均の和
  • 和の分散 は、元の 分散の和

このシンプルな関係性が、再生性の重要なポイントです。


2. 正規分布の標準化


【具体例】 バッテリーの持続時間

あるスマートフォンのバッテリー持続時間 $X$ は、正規分布に従うことが分かっています。

  • 平均 $\mu$: 1200 分
  • 標準偏差 $\sigma$: 80 分
  • 分布: $X \sim N(1200, 80^2)$

問: このスマホを1台選んだ時、バッテリー持続時間が 1300分以上 である確率はどのくらいでしょうか? ($P(X \ge 1300)$)


なぜ標準化が必要か?

平均や分散が異なると、分布の形や位置が変わるため、確率を直接計算するのが困難です。

image.png

そこで、これらの異なる分布を 共通のモノサシ で測れるようにする操作が 「標準化」 です。


import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

x = np.linspace(-10, 20, 1000)

# Different normal distributions
mu_1, sigma_1 = 0, 1
mu_2, sigma_2 = 5, 2
mu_3, sigma_3 = 2, 4

plt.figure(figsize=(10, 6))
plt.plot(x, norm.pdf(x, mu_1, sigma_1), label=f'Mean={mu_1}, Std Dev={sigma_1}')
plt.plot(x, norm.pdf(x, mu_2, sigma_2), label=f'Mean={mu_2}, Std Dev={sigma_2}')
plt.plot(x, norm.pdf(x, mu_3, sigma_3), label=f'Mean={mu_3}, Std Dev={sigma_3}')

plt.title('Various Normal Distributions')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.legend()
plt.grid(True)
plt.show()

具体例の解説 (1/2): 標準化の実行

確率変数 $X$ (元の値) を、標準化された確率変数 $Z$ に変換します。

1. $X=1300$ に対応する $Z$ の値を計算
変換式 $Z = \frac{X - \mu}{\sigma}$ を使います。

$$
Z = \frac{1300 - 1200}{80} = \frac{100}{80} = 1.25
$$

2. 確率の置き換え
これにより、求めたい確率は次のように置き換えられます。
$P(X \ge 1300) = P(Z \ge 1.25)$


具体例の解説 (2/2): 確率の計算

$P(Z \ge 1.25)$ の値は、標準正規分布表 を使って求めます。

image.png

  • 標準正規分布表より、$P(0 \le Z \le 1.25) \approx 0.3944$
  • 全体の右半分の確率は $0.5$ なので…
    $P(Z \ge 1.25) = 0.5 - 0.3944 = \textbf{0.1056}$

結論: バッテリー持続時間が1300分以上である確率は 約10.56% です。


import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

x = np.linspace(-4, 4, 1000)
z_val = 1.25
y = norm.pdf(x, 0, 1)

plt.figure(figsize=(10, 6))
plt.plot(x, y, 'b-')

# Shade the area P(Z >= 1.25)
x_fill = np.linspace(z_val, 4, 500)
y_fill = norm.pdf(x_fill, 0, 1)
plt.fill_between(x_fill, y_fill, color='red', alpha=0.5, label=f'Area = P(Z >= {z_val})')

plt.title('Standard Normal Distribution')
plt.xlabel('Z-score')
plt.ylabel('Probability Density')
plt.axvline(z_val, color='r', linestyle='--', label=f'Z = {z_val}')
plt.legend()
plt.grid(True)
plt.show()

一般化と定義:標準化

今の例を一般化すると、次のように定義できます。

標準化
平均や分散が異なる正規分布を、すべて 平均 0, 分散 1標準正規分布 ($N(0, 1)$) に変換する操作。

この操作により、あらゆる正規分布の確率計算を、標準正規分布表 という一つの表だけで実行できるようになります。


標準化の公式

平均 $\mu$、分散 $\sigma^2$ の正規分布に従う確率変数 $X$ を、標準正規分布に従う確率変数 $Z$ に変換する式は以下の通りです。

$$
Z = \frac{X - \mu}{\sigma}
$$

この操作により、$Z$ は必ず 平均 0分散 (および標準偏差) 1 の確率変数となります。


まとめ


本日のまとめ

  • 再生性

    • 独立な正規分布の もまた正規分布に従う。
    • 和の 平均 は、元の平均の和。
    • 和の 分散 は、元の分散の和。
      $$ W \sim N(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2) $$
  • 標準化

    • あらゆる正規分布を 平均0, 分散1 の共通のモノサシに変換。
    • 確率計算が 標準正規分布表 だけで可能になる。
      $$ Z = \frac{X - \mu}{\sigma} $$

今後の学習に向けて

今回学んだ 再生性標準化 は、統計学の多くの分野で基礎となる重要な概念です。

  • 複数の要因が絡み合う現象のモデル化
  • 統計的仮説検定
  • 区間推定

など、様々な場面で活用されます。
ぜひマスターしておきましょう。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?