0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

確率分布~χ2乗分布

Posted at

χ2乗分布

正規分布を前提とした、「分散の検定」で使うと理解すればよい。
(各試行は互いに独立であり同じ分布に従うこと(i.i.d)も条件)

他にも正規分布を前提とした検定用の分布がある。

  • $\chi$2乗分布 : 分散の検定
  • t分布 : 平均値の検定
  • F分布 : 2つの標本分散の比の分析(2つの標本のχニ乗値の比)

以下の「キーワード」で使用される

  1. 平均値からのズレ量を論じたい
  2. 母分散の区間推定
  3. 適合度の検定
  4. 独立性の検定

1.を理解すればあとは本質的には同じ。

機能面を理解したい。
分布式ではなく、χ2乗分布の変数の式を見ると意味が理解できる。

ポイント

  • 標準正規分布の2乗和「Z」が従う分布がχ2乗分布
Z = \sum_i^k \left( \frac{x_i-\mu}{\sigma} \right)^2=\chi^2(k)
  • xは観測値、これが標準正規分布に従うか否かを検定
  • 得られた「Z」を「χ2乗分布表」の横軸値から探し、その時の生起確率を参照することで「妥当さ」「稀さ」を検証
  • 「χ2乗分布表」から読み取った値が小さい場合(発生確率が0.05以下など)、観測値は正規分布に従わないと解釈できる
  • 「偏りのあるサイコロ」の例で理解するとイメージし易い

サイコロの例とχ2乗の大まかな気持ち

サイコロを振ることを考える。
2種類のサイコロに対し試行する。

  • サイコロ1:一様に1~6が出るサイコロ
  • サイコロ2: 1か6がよく出て、他の目はほとんど出ない偏ったサイコロ

サイコロが自然なサイコロか不自然なサイコロかを見極める。
100回振った「平均」で見るとどうか?

<100回振った結果>
{4516C1E6-F292-4FCB-8B6D-3180DCA57F8F}.png

サイコロ2は1,6ばかりでるが、平均値で評価するとサイコロ1,2,とで同じ値になる。
分散の値は2倍程度異なるが、これが自然なバラつきであるのか、不自然なバラつき量なのかを論じる(イカサマだと客観的事実として主張する)のは難しい。

サイコロ2が偏りを持つことを客観的に主張したい。
ここで、χ2乗分布の統計量Zの式を見てみる。

Z = \sum_i^k \left( \frac{x_i-\mu}{\sigma} \right)^2=\chi^2(k)

今、x_iが試行100回で得た目の値。i=1~100。
 $\mu$は期待値。当方的なサイコロを仮定すると$\mu = 3.5$。
 σも同様に当方的なサイコロを仮定すると、離散一様分布の分散なので、$\sigma^2 = 35/12$
 ($V[X] = \frac{(b-a+1)^2-1}{12}$)
 $\sigma$は計算上係数として扱うので、話を簡略化するために除外。
式の分子についてイメージしてみる。

分子 =  \sum_i^k (x_i-\mu)^2

一様なサイコロでは、x_iは1~6までが等確率で発生するので、分子の大きさはこれらの総和となり「それなりの量」。
1,6ばかり出るサイコロでは、x_iは1,6ばかり出るので、分子の大きさは総和により「かなり大きな量」。
これを$n * \sigma^2$で割ると、χニ乗値であるZが求められる。

Zの値は「期待値からのズレの大きさを加算していく」ことに対応している。
このZの値はどれほど自然なのか?不自然なのか?を、χ2乗分布から読み取れば、Xが自然に発生した事象か不自然な事象かを判断できる。

以上が、大まかなχ2乗分布の気持ち。

Zの値からχ2乗分布表を読み取り、生起確率を求める

計算したZの値の自然さを、χ2乗分布表から読み取る。
「Xが標準正規分布に従う場合にどの程度の確率でZになるか? = 得られたZは自然か?不自然か?」を、確率から判定する。

「χ2乗分布表」で調べると、「横軸がZ、縦軸がそのZが得られる確率」というχ2乗分布のグラフと表が見つけられる(正確には上側確率等、取得値以上/以下の範囲の積分値)。
自由度「k」は、$Z=\sum_i^kX_i^2$ として足し算した「個数k」の値を参照する。
なお、標本平均$\bar{X}$を使用した場合には自由度が1つ消費されるので、自由度「k-1」の表を参照する。
表、グラフの著作権?が心配なので、他のwebページのリンクを貼る。

まとめ

  • χ2乗分布は、「標準正規分布に従うXの2乗和が従う分布」
  • 取得値$x_i$を標準化して$X_i = \frac{x_i -\mu}{\sigma}$とし、このXを2乗和することで、χ2乗分布用の統計量Zを得る
Z = \sum_i^kX_i^2 = \sum_i^k \left(\frac{x_i-\mu}{\sigma}\right)^2 = \chi^2(k)
  • Zの値(観測値を標準化した2乗和)を見ることで、Xが標準正規分布に従うか否か、=自然な分布か不自然な分布か? を判定できる
  • 判定は「χ2乗分布表」を使用して、観測値が標準正規分布に従う場合にこれを得る確率と比較する
  • 自由度kは$X^2$を足した個数k、表の横軸は計算したZの値、表の値(グラフ縦軸の上側積分値)がX標準正規分布に従うと仮定した場合にそのZが得られる確率
  • つまり、「標準正規分布に従うと仮定したとき、Zの値を得られる確率0.05%しかない」などを読み取ることができ、「Xが正規分布であるという仮定は棄却される」などという事ができる

なお、χ2乗分布の式は、

f(x;k) = \frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}

という式が見つかるが、これを意識する場面はない。
「Xが標準正規分布に従うとき、これの2乗和の生起確率を何とか定式化したい」、と偉人が作り上げた式。
定式化されたおかげで、ここまでで試行したようにサイコロが自然な出目か(本質は$x-\mu$が自然な値に収まる)、偏った出目か(1,6ばかり出る場合、本質は$x-\mu$が異常に大きい)を、計算により確率値に変換して議論が可能になった。

実際の使用シーン

実際には、カウント量<_INS>に対して使われる。
「実験して取得した値で、ヒストグラムを描く」ような状況。

対象となるサンプル例は、

  • ポアソン分布に従う(と予想される)x
  • 2項分布に従う(と予想される)x
  • 正規分布に従う(とよそうされる)x

上2つは各ビンの期待度数が5以上あることを条件とする。
(サンプル数が少ない場合は、尤度比検定やフィッシャーの正確度検定などの方が精度が高い)

素粒子や宇宙に関する実験界隈で、ポアソン分布に従うサンプルの計量をヒストグラム化して、フィッティングした結果が妥当かをχ2乗検定で検証しているようなイメージがある。
「自然」でなければ(=χ2乗検定結果が棄却域であれば)実験中に思わぬ付随誤差(セットアップの不備)がある、または理論値が誤っている、などが考えられるので再検討することになる。

カウントデータに対する検定式は、期待度数 $E_i$ (期待される各ビンiのカウント数、理論値)を用いて、

Z = \sum_i^k\frac{(x_i - E_i)^2}{E_i}=\chi^2(k-1)
  • $x_i$ : ビンiに於ける観測値(カウント数)
  • $E_i$ : ビンiに於ける期待度数(理論値)
  • k:カテゴリ数(取り得る値=ビン数)

日本語にすると、

 実験してヒストグラムを作った各カウント数(各ビンの縦の長さ)が$x_i$
 これに理論値フィッティングしたフィット曲線の、各ビンにおける値が$E_i$
 実験値とフィッティングとのズレを、各ビンにおいて2乗して総和したのがZ。

このZがχ2乗分布に従う。
「理論値と観測値とのズレが、単に偶発的な誤差のみに依る = 正規分布に従う」という意味の式。

なぜ期待度数で割るのか?

ググったり、ChatGPTに聞いても堂々巡りで明確な解はえられなかった。
ここでは自分なりに考えた解釈を書いておく。
誤りや正確な理論的裏付けがあれば教えて欲しい。

カウントデータに対する検定式。

Z = \sum_i^k\frac{(x_i - E_i)^2}{E_i}=\chi^2(k-1)

ここで、分母が期待度数$E_i$となっている。
「Xが標準正規分布に従う」ことがχ2乗分布の本来の定義なので、本来の意味を考えると分母は「分散」でないといけない。
実は、カウントデータに於いて、$E_i \approx \sigma^2$ が確立されているという事らしい。
この点はググったり、ChatGPTに聞いても堂々巡りで明確な解はえられなかった。

以下は、個人的に解釈した内容を書く。
誤りがあれば指摘いただきたい。

ポアソン分布の適用
ポアソン分布の特徴は、期待値と分散がともに$\lambda$であること。
つまり、期待度数で割る操作がそのまま分散で割る操作と等しい。
期待度数は理論値に相当するので、理論値を予想すれば、分散について考慮することなくすぐにχ2乗検定が適用可能という利点がある。

2値しかとらない場合
ヒストグラムではなく、True(コインでいう表)かFalse(コインでいう裏)かの2択の時。
つまり、ベルヌーイ試行(n回行うので、二項分布というほうが正確)。
n回の試行結果が以下の表のとおりであったとする。2択なので、2x2の表。

コイン
観測度数 X n-X
期待度数 np n(1-p)

また、

  • 二項分布の期待値 : $E[X] = np$
  • 二項分布の分散:$V[X] = np(1-p)$

逆行するが、χ2乗検定式に観測結果を代入する。

\begin{align}
\chi^2(k-1) &= \sum_i^k\frac{(x_i - E_i)^2}{E_i} \\
&= \left( 表の確率:\frac{(X-np)^2}{np}\right) + \left( 裏の確率:\frac{\left((n-X)-n(1-p)\right)^2}{n(1-p)}\right) \\

&= \frac{(X-np)^2}{np} + \frac{(-X+np)^2}{n(1-p)} \\

&= \frac{(X-np)^2*(1-p) + (X-np)^2 *p}{np(1-p)} \\

&= \frac{(X-np)^2}{np(1-p)}

\end{align}

ただし、実は排反な事象なので「表か否か」が決まれば自然と「裏か否か」が決定されるので、自由度は1。
(k自体は表、裏の2つがある(k=2)が、自由に決まる値はk-1。よって$\chi^2(1)の分布を参照する$)

分母に「期待度数」を定式化して計算を開始したのに、計算結果は分散$V[X] = np(1-p)$の形となっている。
これを拡張して、2値以外の「ヒストグラム」の状況に適用できないか?
あるビンiに着目して、「ビンiに入る確率」と「ビンi以外に入る確率」で同じ式を作ることで2値化して考えることができそう。
同じ式を得る。
本質的に同じ考えができると思われ、期待度数で割ることを正当化しているのか、と考えた。
すこし誤魔化しな気もするが、これでぼんやり理解したことにしておく。

母分散の推定

もう一つ、「推定」の基本的な考え方を知る例として挙げる。

母分散を未知とし、$\sigma^2$とする。
標準正規分布に従うk個の観測値$x_i$(i=1~k)に対して、χ2乗分布の統計量の計算をする。

Z = \sum_i^k{\left(\frac{x_i-\mu}{\sigma}\right)^2}

$\mu$は既知であれば自由度はk、未知であれば標本平均を用いて自由度k-1にする。
この式から、χニ乗分布表を逆引きして$\sigma^2$の信頼区間を推定する。
自由度k(またはk-1)に於ける95%信頼区間の上下値をそれぞれz0、z1とする。
すると、観測値$x_i$が正規分布に従うと言える範囲は、

p0 \leq  \sum_i^k{\left(\frac{x_i-\mu}{\sigma}\right)^2} \leq p1

逆数を取る(不統合が逆になる(またはp0、p1を入れ替える)ことに注意)。
また、$\sum$は$\sigma$には影響しないので$\sigma$は$\sum$の外に出す

\frac{1}{p1} \leq  \frac{\sigma^2}{\sum_i^k(x_i-\mu)^2} \leq \frac{1}{p0}

すると、$\sigma^2$の95%信頼区間は、

\frac{\sum_i^k(x_i-\mu)^2}{p1} \leq  \sigma^2 \leq \frac{\sum_i^k(x_i-\mu)^2}{p0}

と推定できる。
「母分散の区間推定」というと難しいように思えるが、非常に簡単。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?