以下の統計検定2級対策動画で用いられているスライドの一部です。
このスライドで学ぶこと
このスライドでは、統計的仮説検定で重要な役割を果たす カイ二乗分布 について学びます。
-
アプローチ
- まず 具体的な問題 を通じて、カイ二乗分布の考え方に触れます。
- その後、 一般的な定義や公式 を整理し、理解を深めます。
-
ゴール
- カイ二乗分布が どのように成り立っているか を説明できるようになる。
- カイ二乗分布の 基本的な性質 を理解する。
Step 1: 具体例から考えてみよう
まずは、以下の問題設定を見てみましょう。
-
状況
- ある精密機械メーカーが部品を製造しています。
- 部品の長さの 測定誤差 は、平均が0、標準偏差が1の 標準正規分布 $N(0, 1)$ に従います。
-
操作
- 無作為に 4個 の部品を抽出します。
- それぞれの測定誤差を $Z_1, Z_2, Z_3, Z_4$ と記録します。
問題
先ほどの状況で、測定誤差の 2乗和 を計算し、それを $W$ とします。
$$
W = Z_1^2 + Z_2^2 + Z_3^2 + Z_4^2
$$
-
問い1
この統計量 $W$ は、どのような 確率分布 に従うでしょうか? -
問い2
この統計量 $W$ の 期待値 (平均)と 分散 (ばらつき)はいくつでしょうか?
考察①:$W$ が従う分布は?
-
ポイント
統計量 $W$ は、独立な 標準正規分布に従う確率変数 の 2乗和 で構成されています。 -
結論
このように、 標準正規分布に従う確率変数を2乗して足し合わせたものが従う分布 を カイ二乗分布 と呼びます。足し合わせる確率変数の個数(今回は4個)を 自由度 と呼びます。
したがって、問い1の答えは...
$W$ は 自由度4のカイ二乗分布 $\chi^2(4)$ に従う。
考察②:カイ二乗分布の形状
カイ二乗分布のグラフの形状は、 自由度 によって変化します。
-
値の範囲
- 2乗和なので、 常に0以上の値 をとります。
-
分布の歪み
- 自由度が小さいと、分布は 右に長い裾を持つ形(左に偏る) になります。
- 自由度が大きくなるにつれて、分布の山は右へ移動し、 左右対称の形 に近づいていきます。
自由度と分布の形状(グラフ)
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2
# Define degrees of freedom to plot
dfs = [2, 4, 8, 16]
# Create x-axis values
x = np.linspace(0, 30, 500)
plt.figure(figsize=(10, 6))
for df in dfs:
# Calculate probability density function (PDF)
y = chi2.pdf(x, df)
plt.plot(x, y, label=f'k = {df}')
# Add plot details
plt.title('Chi-Squared Distribution for Different Degrees of Freedom')
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.legend()
plt.grid(True)
plt.ylim(bottom=0)
plt.xlim(left=0)
plt.show()
考察③:期待値と分散
カイ二乗分布の期待値と分散は、 自由度 を使って簡単に計算できます。
- 期待値 = 自由度
- 分散 = 自由度 $\times$ 2
今回の問題では自由度が4なので、問い2の答えは...
期待値
$E[W] = 4$分散
$V[W] = 2 \times 4 = 8$
となります。
カイ二乗分布の用途
カイ二乗分布は、実際のデータ分析でどのように使われるのでしょうか?
-
適合度の検定
- 観測されたデータが、理論的に想定される分布と一致していると言えるかを検定します。
- 例:「サイコロの各目が出る確率は本当にすべて1/6か?」
-
独立性の検定
- 2つのカテゴリカル変数が互いに関連なく独立していると言えるかを検定します。
- 例:「血液型と性格に関連はあるか?」
Step 2: 一般化と定義のまとめ
ここまでの具体例を踏まえ、カイ二乗分布の定義と性質を一般的に整理します。
カイ二乗分布の定義
互いに独立な $k$ 個の確率変数 $Z_1, Z_2, \dots, Z_k$ が、すべて標準正規分布 $N(0, 1)$ に従うとします。
このとき、これらの確率変数の2乗和 $X$
$$
X = Z_1^2 + Z_2^2 + \dots + Z_k^2 = \sum_{i=1}^{k} Z_i^2
$$
が従う確率分布を、 自由度 $k$ のカイ二乗分布 といい、$\chi^2(k)$ と表記します。
カイ二乗分布の公式
確率変数 $X$ が自由度 $k$ のカイ二乗分布 $\chi^2(k)$ に従うとき、以下の性質が成り立ちます。
-
期待値
$E[X] = k$ -
分散
$V[X] = 2k$
カイ二乗分布の公式:再生性
カイ二乗分布には 再生性 という重要な性質もあります。
独立なカイ二乗分布に従う確率変数同士の和もまた、カイ二乗分布に従う。
- $X_1$ が $\chi^2(k_1)$ に従う
- $X_2$ が $\chi^2(k_2)$ に従う
- $X_1$ と $X_2$ は互いに独立
このとき、これらの和 $Y = X_1 + X_2$ は、自由度を足し合わせた $\chi^2(k_1 + k_2)$ に従います。
まとめ
- カイ二乗分布は、 独立な標準正規分布の2乗和 が従う分布です。
- 分布の形状や性質は、 自由度 $k$ (足し合わせる確率変数の個数)によって決まります。
- この理解は、 カイ二乗検定 などの統計手法を学ぶ上での重要な基礎となります。
