χ2乗分布
正規分布を前提とした、「分散の検定」で使うと理解すればよい。
(各試行は互いに独立であり同じ分布に従うこと(i.i.d)も条件)
他にも正規分布を前提とした検定用の分布がある。
- $\chi$2乗分布 : 分散の検定
- t分布 : 平均値の検定
- F分布 : 2つの標本分散の比の分析(2つの標本のχニ乗値の比)
以下の「キーワード」で使用される
- 平均値からのズレ量を論じたい
- 母分散の区間推定
- 適合度の検定
- 独立性の検定
1.を理解すればあとは本質的には同じ。
機能面を理解したい。
分布式ではなく、χ2乗分布の変数の式を見ると意味が理解できる。
ポイント
- 標準正規分布の2乗和「Z」が従う分布がχ2乗分布
Z = \sum_i^k \left( \frac{x_i-\mu}{\sigma} \right)^2=\chi^2(k)
- xは観測値、これが標準正規分布に従うか否かを検定
- 得られた「Z」を「χ2乗分布表」の横軸値から探し、その時の生起確率を参照することで「妥当さ」「稀さ」を検証
- 「χ2乗分布表」から読み取った値が小さい場合(発生確率が0.05以下など)、観測値は正規分布に従わないと解釈できる
- 「偏りのあるサイコロ」の例で理解するとイメージし易い
サイコロの例とχ2乗の大まかな気持ち
サイコロを振ることを考える。
2種類のサイコロに対し試行する。
- サイコロ1:一様に1~6が出るサイコロ
- サイコロ2: 1か6がよく出て、他の目はほとんど出ない偏ったサイコロ
サイコロが自然なサイコロか不自然なサイコロかを見極める。
100回振った「平均」で見るとどうか?
サイコロ2は1,6ばかりでるが、平均値で評価するとサイコロ1,2,とで同じ値になる。
分散の値は2倍程度異なるが、これが自然なバラつきであるのか、不自然なバラつき量なのかを論じる(イカサマだと客観的事実として主張する)のは難しい。
サイコロ2が偏りを持つことを客観的に主張したい。
ここで、χ2乗分布の統計量Zの式を見てみる。
Z = \sum_i^k \left( \frac{x_i-\mu}{\sigma} \right)^2=\chi^2(k)
今、x_iが試行100回で得た目の値。i=1~100。
$\mu$は期待値。当方的なサイコロを仮定すると$\mu = 3.5$。
σも同様に当方的なサイコロを仮定すると、離散一様分布の分散なので、$\sigma^2 = 35/12$
($V[X] = \frac{(b-a+1)^2-1}{12}$)
$\sigma$は計算上係数として扱うので、話を簡略化するために除外。
式の分子についてイメージしてみる。
分子 = \sum_i^k (x_i-\mu)^2
一様なサイコロでは、x_iは1~6までが等確率で発生するので、分子の大きさはこれらの総和となり「それなりの量」。
1,6ばかり出るサイコロでは、x_iは1,6ばかり出るので、分子の大きさは総和により「かなり大きな量」。
これを$n * \sigma^2$で割ると、χニ乗値であるZが求められる。
Zの値は「期待値からのズレの大きさを加算していく」ことに対応している。
このZの値はどれほど自然なのか?不自然なのか?を、χ2乗分布から読み取れば、Xが自然に発生した事象か不自然な事象かを判断できる。
以上が、大まかなχ2乗分布の気持ち。
Zの値からχ2乗分布表を読み取り、生起確率を求める
計算したZの値の自然さを、χ2乗分布表から読み取る。
「Xが標準正規分布に従う場合にどの程度の確率でZになるか? = 得られたZは自然か?不自然か?」を、確率から判定する。
「χ2乗分布表」で調べると、「横軸がZ、縦軸がそのZが得られる確率」というχ2乗分布のグラフと表が見つけられる(正確には上側確率等、取得値以上/以下の範囲の積分値)。
自由度「k」は、$Z=\sum_i^kX_i^2$ として足し算した「個数k」の値を参照する。
なお、標本平均$\bar{X}$を使用した場合には自由度が1つ消費されるので、自由度「k-1」の表を参照する。
表、グラフの著作権?が心配なので、他のwebページのリンクを貼る。
まとめ
- χ2乗分布は、「標準正規分布に従うXの2乗和が従う分布」
- 取得値$x_i$を標準化して$X_i = \frac{x_i -\mu}{\sigma}$とし、このXを2乗和することで、χ2乗分布用の統計量Zを得る
Z = \sum_i^kX_i^2 = \sum_i^k \left(\frac{x_i-\mu}{\sigma}\right)^2 = \chi^2(k)
- Zの値(観測値を標準化した2乗和)を見ることで、Xが標準正規分布に従うか否か、=自然な分布か不自然な分布か? を判定できる
- 判定は「χ2乗分布表」を使用して、観測値が標準正規分布に従う場合にこれを得る確率と比較する
- 自由度kは$X^2$を足した個数k、表の横軸は計算したZの値、表の値(グラフ縦軸の上側積分値)がX標準正規分布に従うと仮定した場合にそのZが得られる確率
- つまり、「標準正規分布に従うと仮定したとき、Zの値を得られる確率0.05%しかない」などを読み取ることができ、「Xが正規分布であるという仮定は棄却される」などという事ができる
なお、χ2乗分布の式は、
f(x;k) = \frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}
という式が見つかるが、これを意識する場面はない。
「Xが標準正規分布に従うとき、これの2乗和の生起確率を何とか定式化したい」、と偉人が作り上げた式。
定式化されたおかげで、ここまでで試行したようにサイコロが自然な出目か(本質は$x-\mu$が自然な値に収まる)、偏った出目か(1,6ばかり出る場合、本質は$x-\mu$が異常に大きい)を、計算により確率値に変換して議論が可能になった。
実際の使用シーン
実際には、カウント量<_INS>に対して使われる。
「実験して取得した値で、ヒストグラムを描く」ような状況。
対象となるサンプル例は、
- ポアソン分布に従う(と予想される)x
- 2項分布に従う(と予想される)x
- 正規分布に従う(とよそうされる)x
上2つは各ビンの期待度数が5以上あることを条件とする。
(サンプル数が少ない場合は、尤度比検定やフィッシャーの正確度検定などの方が精度が高い)
素粒子や宇宙に関する実験界隈で、ポアソン分布に従うサンプルの計量をヒストグラム化して、フィッティングした結果が妥当かをχ2乗検定で検証しているようなイメージがある。
「自然」でなければ(=χ2乗検定結果が棄却域であれば)実験中に思わぬ付随誤差(セットアップの不備)がある、または理論値が誤っている、などが考えられるので再検討することになる。
カウントデータに対する検定式は、期待度数 $E_i$ (期待される各ビンiのカウント数、理論値)を用いて、
Z = \sum_i^k\frac{(x_i - E_i)^2}{E_i}=\chi^2(k-1)
- $x_i$ : ビンiに於ける観測値(カウント数)
- $E_i$ : ビンiに於ける期待度数(理論値)
- k:カテゴリ数(取り得る値=ビン数)
日本語にすると、
実験してヒストグラムを作った各カウント数(各ビンの縦の長さ)が$x_i$
これに理論値フィッティングしたフィット曲線の、各ビンにおける値が$E_i$
実験値とフィッティングとのズレを、各ビンにおいて2乗して総和したのがZ。
このZがχ2乗分布に従う。
「理論値と観測値とのズレが、単に偶発的な誤差のみに依る = 正規分布に従う」という意味の式。
なぜ期待度数で割るのか?
ググったり、ChatGPTに聞いても堂々巡りで明確な解はえられなかった。
ここでは自分なりに考えた解釈を書いておく。
誤りや正確な理論的裏付けがあれば教えて欲しい。
カウントデータに対する検定式。
Z = \sum_i^k\frac{(x_i - E_i)^2}{E_i}=\chi^2(k-1)
ここで、分母が期待度数$E_i$となっている。
「Xが標準正規分布に従う」ことがχ2乗分布の本来の定義なので、本来の意味を考えると分母は「分散」でないといけない。
実は、カウントデータに於いて、$E_i \approx \sigma^2$ が確立されているという事らしい。
この点はググったり、ChatGPTに聞いても堂々巡りで明確な解はえられなかった。
以下は、個人的に解釈した内容を書く。
誤りがあれば指摘いただきたい。
ポアソン分布の適用
ポアソン分布の特徴は、期待値と分散がともに$\lambda$であること。
つまり、期待度数で割る操作がそのまま分散で割る操作と等しい。
期待度数は理論値に相当するので、理論値を予想すれば、分散について考慮することなくすぐにχ2乗検定が適用可能という利点がある。
2値しかとらない場合
ヒストグラムではなく、True(コインでいう表)かFalse(コインでいう裏)かの2択の時。
つまり、ベルヌーイ試行(n回行うので、二項分布というほうが正確)。
n回の試行結果が以下の表のとおりであったとする。2択なので、2x2の表。
コイン | 表 | 裏 |
---|---|---|
観測度数 | X | n-X |
期待度数 | np | n(1-p) |
また、
- 二項分布の期待値 : $E[X] = np$
- 二項分布の分散:$V[X] = np(1-p)$
逆行するが、χ2乗検定式に観測結果を代入する。
\begin{align}
\chi^2(k-1) &= \sum_i^k\frac{(x_i - E_i)^2}{E_i} \\
&= \left( 表の確率:\frac{(X-np)^2}{np}\right) + \left( 裏の確率:\frac{\left((n-X)-n(1-p)\right)^2}{n(1-p)}\right) \\
&= \frac{(X-np)^2}{np} + \frac{(-X+np)^2}{n(1-p)} \\
&= \frac{(X-np)^2*(1-p) + (X-np)^2 *p}{np(1-p)} \\
&= \frac{(X-np)^2}{np(1-p)}
\end{align}
ただし、実は排反な事象なので「表か否か」が決まれば自然と「裏か否か」が決定されるので、自由度は1。
(k自体は表、裏の2つがある(k=2)が、自由に決まる値はk-1。よって$\chi^2(1)の分布を参照する$)
分母に「期待度数」を定式化して計算を開始したのに、計算結果は分散$V[X] = np(1-p)$の形となっている。
これを拡張して、2値以外の「ヒストグラム」の状況に適用できないか?
あるビンiに着目して、「ビンiに入る確率」と「ビンi以外に入る確率」で同じ式を作ることで2値化して考えることができそう。
同じ式を得る。
本質的に同じ考えができると思われ、期待度数で割ることを正当化しているのか、と考えた。
すこし誤魔化しな気もするが、これでぼんやり理解したことにしておく。
母分散の推定
もう一つ、「推定」の基本的な考え方を知る例として挙げる。
母分散を未知とし、$\sigma^2$とする。
標準正規分布に従うk個の観測値$x_i$(i=1~k)に対して、χ2乗分布の統計量の計算をする。
Z = \sum_i^k{\left(\frac{x_i-\mu}{\sigma}\right)^2}
$\mu$は既知であれば自由度はk、未知であれば標本平均を用いて自由度k-1にする。
この式から、χニ乗分布表を逆引きして$\sigma^2$の信頼区間を推定する。
自由度k(またはk-1)に於ける95%信頼区間の上下値をそれぞれz0、z1とする。
すると、観測値$x_i$が正規分布に従うと言える範囲は、
p0 \leq \sum_i^k{\left(\frac{x_i-\mu}{\sigma}\right)^2} \leq p1
逆数を取る(不統合が逆になる(またはp0、p1を入れ替える)ことに注意)。
また、$\sum$は$\sigma$には影響しないので$\sigma$は$\sum$の外に出す
\frac{1}{p1} \leq \frac{\sigma^2}{\sum_i^k(x_i-\mu)^2} \leq \frac{1}{p0}
すると、$\sigma^2$の95%信頼区間は、
\frac{\sum_i^k(x_i-\mu)^2}{p1} \leq \sigma^2 \leq \frac{\sum_i^k(x_i-\mu)^2}{p0}
と推定できる。
「母分散の区間推定」というと難しいように思えるが、非常に簡単。