0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

カイ二乗分布を用いた母分散の信頼区間の求め方_統計検定2級対策

Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。

今回のテーマ

  • 母集団のデータの ばらつき を示す 母分散 ($\sigma^2$) を推定します。
  • ある一点の値ではなく、確率的に信頼できる 区間 を求めます。
  • この計算には、 カイ二乗分布 ($\chi^2$分布) という確率分布を利用します。

学習の流れ

まずは具体的な例題を通して、計算の流れを体験します。
その後に、背景にある理論や公式を整理し、理解を深めます。

  1. Step 1: 具体的な計算例から学ぶ

    • 問題設定から結論まで、一連のプロセスを追体験します。
  2. Step 2: 一般化と定義のまとめ

    • 計算例で使った考え方を、一般的な定義と公式に落とし込みます。

Step 1: 具体的な計算例 - 問題設定

ある工場で、部品の重量を管理しています。
その精度を評価するため、以下の調査を行いました。

  • 調査内容
    • 15個の部品を無作為に抽出
    • 重量を測定し、 不偏分散 を計算
    • 結果: $s^2 = 25.0$ (mg$^2$)

ただし、この部品の重量は正規分布に従うものとします。
この結果から、部品重量の母分散$\sigma^2$に対する 90%信頼区間 を求めてみましょう。


解答プロセス (1) 条件の確認

問題文から、計算に必要な情報を整理します。

  • 標本サイズ: $n = 15$
  • 不偏分散: $s^2 = 25.0$
  • 信頼係数: $1-\alpha = 0.90$
  • 有意水準: $\alpha = 1 - 0.90 = 0.10$
    • 信頼区間の外側に出る確率。両側に$\alpha/2 = 0.05$ずつ割り振ります。

解答プロセス (2) なぜカイ二乗分布?

母分散の信頼区間を求めるには、カイ二乗分布が持つ以下の重要な性質を利用します。

母集団が正規分布に従うとき、標本の大きさ$n$、不偏分散$s^2$から計算される統計量$\frac{(n-1)s^2}{\sigma^2}$は、ある特定の確率分布に従います。

$$
\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)
$$

この統計量は、 自由度$n-1$のカイ二乗分布 に従います。


解答プロセス (3) 自由度を求める

今回の問題に、この性質を当てはめます。

  • 標本サイズ$n = 15$なので、自由度 (df) は、
    $$
    df = n - 1 = 15 - 1 = 14
    $$
  • したがって、 自由度14のカイ二乗分布 を使って計算を進めます。

カイ二乗分布の可視化

自由度14のカイ二乗分布と、90%信頼区間(両側5%)の関係を視覚的に確認しましょう。

image.png


import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2

# Parameters
df = 14
confidence_level = 0.90
alpha = 1 - confidence_level

# Critical values
chi2_lower = chi2.ppf(alpha / 2, df)
chi2_upper = chi2.ppf(1 - alpha / 2, df)

# X values for the plot
x = np.linspace(chi2.ppf(0.001, df), chi2.ppf(0.999, df), 500)
y = chi2.pdf(x, df)

# Create the plot
plt.figure(figsize=(10, 6))
plt.plot(x, y, 'b-', label=f'Chi-squared (df={df})')

# Shade the area outside the confidence interval
x_fill_lower = np.linspace(chi2.ppf(0.001, df), chi2_lower, 100)
y_fill_lower = chi2.pdf(x_fill_lower, df)
plt.fill_between(x_fill_lower, y_fill_lower, color='red', alpha=0.5, label=f'Lower {alpha/2*100:.1f}%')

x_fill_upper = np.linspace(chi2_upper, chi2.ppf(0.999, df), 100)
y_fill_upper = chi2.pdf(x_fill_upper, df)
plt.fill_between(x_fill_upper, y_fill_upper, color='red', alpha=0.5, label=f'Upper {alpha/2*100:.1f}%')

# Add labels and title
plt.title(f'Chi-squared Distribution (df={df}) with {confidence_level*100:.0f}% Confidence Interval')
plt.xlabel('Chi-squared Value')
plt.ylabel('Probability Density')
plt.legend()
plt.grid(True)
plt.show()

解答プロセス (4) カイ二乗分布の値を求める

カイ二乗分布表から、自由度14における両側の棄却域の境界値(パーセント点)を読み取ります。

  • 上側5%点 ($\alpha/2 = 0.05$)

    • $\chi^2_{0.05, 14} = 23.685$
  • 下側5%点 (上側95%点, $1-\alpha/2 = 0.95$)

    • $\chi^2_{0.95, 14} = 6.571$

これらの値が、信頼区間を計算するための重要な要素となります。


解答プロセス (5) 信頼区間の計算(下限)

信頼区間の 下限値 を計算します。
分母には、先ほど求めたカイ二乗値のうち 大きい方 ($\chi^2_{0.05, 14}$) を使います。

$$
\frac{(n-1)s^2}{\chi^2_{0.05, 14}} = \frac{(15-1) \times 25.0}{23.685}
$$

$$
= \frac{350}{23.685} \approx 14.775
$$


解答プロセス (6) 信頼区間の計算(上限)

次に、信頼区間の 上限値 を計算します。
分母には、カイ二乗値のうち 小さい方 ($\chi^2_{0.95, 14}$) を使います。

$$
\frac{(n-1)s^2}{\chi^2_{0.95, 14}} = \frac{(15-1) \times 25.0}{6.571}
$$

$$
= \frac{350}{6.571} \approx 53.264
$$


解答プロセス (7) 結論

計算結果をまとめます。
この工場で製造される部品の重量の母分散$\sigma^2$に対する 90%信頼区間 は、

[14.78, 53.26] (mg$^2$)

であると推定されます。


Step 2: 一般化と定義のまとめ

ここまでの具体例を踏まえ、母分散の信頼区間の考え方を一般化し、定義と公式を整理します。


母分散の信頼区間とは?

  • 調査や実験で得られるデータは 標本 であり、そこから計算されるのは 不偏分散 ($s^2$) です。
  • 私たちが本当に知りたいのは、母集団全体のばらつきである 母分散 ($\sigma^2$) です。

母分散の信頼区間 とは、標本データをもとに、「未知である真の母分散$\sigma^2$が、ある確率(信頼係数)で含まれると推定される区間」のことです。


信頼区間の導出プロセス (1)

信頼区間の公式は、カイ二乗分布の性質から導かれます。
まず、以下の確率的な関係式からスタートします。

$$
P \left( \chi^2_{1-\alpha/2, n-1} \le \frac{(n-1)s^2}{\sigma^2} \le \chi^2_{\alpha/2, n-1} \right) = 1-\alpha
$$

この式の意味は、「統計量$\frac{(n-1)s^2}{\sigma^2}$が、カイ二乗分布の下側と上側の点の間に収まる確率は$1-\alpha$である」ということです。


信頼区間の導出プロセス (2)

次に、この不等式を、求めたい$\sigma^2$について変形します。

  1. 各辺の逆数をとる

    • 不等号の向きが逆転します。
      $$
      \frac{1}{\chi^2_{\alpha/2, n-1}} \le \frac{\sigma^2}{(n-1)s^2} \le \frac{1}{\chi^2_{1-\alpha/2, n-1}}
      $$
  2. 各辺に$(n-1)s^2$を掛ける

    • 中央が$\sigma^2$だけになり、公式が導かれます。

母分散の信頼区間の公式

以上のプロセスから、信頼係数$1-\alpha$の母分散$\sigma^2$の信頼区間の公式が導かれます。

$$
\frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}} \le \sigma^2 \le \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}}
$$

  • ポイント
    • 区間の 下限 の分母は、カイ二乗分布の 上側 の点 ($\chi^2_{\alpha/2, n-1}$)
    • 区間の 上限 の分母は、カイ二乗分布の 下側 の点 ($\chi^2_{1-\alpha/2, n-1}$)

まとめ

  • Point 1: カイ二乗分布の利用

    • 統計量$\frac{(n-1)s^2}{\sigma^2}$が、自由度$n-1$のカイ二乗分布に従う性質がすべての基本です。
  • Point 2: 信頼区間の公式
    $$
    \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}} \le \sigma^2 \le \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}}
    $$

  • Point 3: 計算上の注意点

    • 分母に来るカイ二乗値が、区間の 下限と上限で入れ替わる ことを忘れないようにしましょう。
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?