2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

わかったつもりのχ二乗をもう一度ちゃんと理解する

Last updated at Posted at 2021-10-22

統計において、母分散の区間を求めたい時などに出てくるχ二乗分布。
χ二乗検定などでクロス表を扱ったりと、ちらほら「χ二乗」には関わることがあります。

実用性において、「χ二乗分布の公式やt分布との関係性を熟知しておく必要がない」と
個人的な意見はありますが、それでも統計検定2級とかでちゃんと出てくる(そして、私は自宅で初見で解いて爆死した)ので、「しっかりと」χ二乗分布についてみていこうと思います。

標本分散とχ二乗分布

標本(不偏)分散

まずは標本(不偏)分散から。

母集団の推測を目的とするため、標本から分散を求めるには「不偏分散」を用いますが、参考書によっては当たり前のように「標本分散」と記載があったりします。
流派があるかもなんですが、ここでの標本から求める分散は以下で定義するものとします

$$ \hat{σ} = \frac{1}{n-1} \sum_{i=1}^{n}(x_i - \bar{x})^2$$

この$\hat{σ^2}$は性質として、平均的に母分散$σ^2$と等しくなる(E[$\hat{σ}^2$] = $σ^2$ これを不偏性と言います)わけですが、もちろん数回だけではバラつきます

修正χ二乗

まず、母分散を求めたいとか区間推定したい、という話の前に、母分散$σ^2$と$\hat{σ^2}$を使って、
$$C^2 = \frac{\hat{σ^2}}{σ^2}$$
を考えます。
この$C^2$というのは修正χ二乗と言われて、平均的には1に落ち着きます
(なぜなら不偏分散の期待値は$σ^2$なので)

しかし、いつも1ではなく、当然1よりも大きな値も小さい値(あくまで非負の範囲)も取りうることになり、これは一般的に自由度(今回ならn-1)により、グラフが変わってきます。
(自分が不慣れにkeynoteで作ったグラフなので、精緻なグラフでもなんでもないですw あくまでイメージ)
スクリーンショット 2021-10-22 14.36.39.png
しかし、この$C^2$はおそらく普通の参考書とかに出てこないです。
数値として0以上でかつ1のとき完全一致するというわかりやすいんですが、基本的には$χ^2$が使われます

χ二乗

今、母集団(N(μ, $σ^2$))において、n個のサンプル($x_1, x_2,,, x_n$)とすると、$χ^2$は

$$χ^2 = \sum_{i-1}^{n}(\frac{x_i - μ}{σ})^2$$
で表現されます。(μ、σはそれぞれ母数)
これだけ書いても「あ、そーなんですね!」で会話が終わらせられるので、噛み砕いていうと、

「サンプルから平均を引いて標準偏差で割ったものであり、これは標準化そのもの。
つまり、これはN(0, 1)のn個の独立な要素の平方和は$χ^2$分布をする」

って感じです。
ちなみに、母数を使ったこの$χ^2$分布の自由度はnです(xiのどれもμで表したりできないので、そのままn)

この母平均μを標本平均$\bar{x}$に置き換えると、

$$χ^2 = \sum_{i-1}^{n}(\frac{x_i - \bar{x}}{σ})^2 = \frac{(n-1)\hat{σ}^2}{σ^2} = (n-1)C^2$$

となり、一般的な書籍と同じ形になりました。
この$χ^2$分布に関しては、自由度はn-1となります
(たとえば、$x_nはx_1,・・・, x_{n-1}と\bar{x}$で表現できるので、n-1)

つまり、母数を使う場合と標本平均を使う場合とでは、自由度の違う$χ^2$分布になるということです。

χ二乗の性質

確率変数X~$χ^2(n)$のとき、

  • 期待値(平均値)は$E[X] = n $
  • 分散は$V[X] = 2n$
    という性質があります
    (導出はχ二乗の確率密度関数の積分とかなので、割愛。
    さすがにχ二乗の確率密度関数は覚えるものではないw)

加法性

χ二乗は分散との共通性質もあり、例えば、$χ_1^2: 自由度n_1, χ_2^2: 自由度n_2$であるとき、
$χ^2 = χ_1^2 + χ_2^2の自由度はn_1+n_2$
となります(3つ以上でもOK,χ_i^2は独立)

t分布との関係性

χ二乗もt分布も標本から計算される数値を扱っているため、共通点を持っています。
実際導出まではしないのですが、一般的にt分布と自由度nのχ^2変数を用いて、以下のような等式が成り立つことが知られています。
$$t(n) = \frac{N(0, 1)}{\sqrt{\frac{χ^2(n)}{n}}}$$
(導出はt分布の統計量、標準正規分布の統計量を用いれば、上記で扱ってきたχ^2の組み合わせで算出できます)

Pythonでχ二乗をプロット

我々は手計算でχ二乗をゴリゴリ計算することはほとんどないので、pythonをつかってχ二乗を扱ってみます。

まずば確率密度関数を見ます

import numpy as np
import matplotlib.pyplot as plt

from scipy import stats


x = np.linspace(0, 20, 100)
for df in range(1, 20, 3):
  plt.plot(x, stats.chi2.pdf(x, df), label=f'degree of freedom: {df}')
  
plt.plot(x, stats.chi2.pdf(x, 100), label='degree of freedom: 100')
plt.legend()
plt.show()

スクリーンショット 2021-10-22 15.45.55.png

検定をしたい場合はchi2_contigencyメソッドとかがありますが、今回は検定の話ではないので、省略

今回参考にさせていただいた記事や書籍

2021年6月統計検定2級の問題の解説(その3)
基本統計学
22-1. カイ二乗分布

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?