#はじめに
実験屋の為の初等統計学と誤差論も参照してね。
分布の様子や検定についても加筆したい。
#カイ二乗分布
カイ二乗($\chi^2$)分布とかカイ二乗検定とか聞くけどなんなのか。いまいちわからなかったので調べてみた。
wikipediaによると
独立に標準正規分布に従う k 個の確率変数 X_1, ..., X_k をとる。 このとき、統計量\\
Z=\sum^k_{i=1}X_i^2 \\
の従う分布のことを自由度 k のカイ二乗分布と呼ぶ。
らしい。
つまり正規分布(を線形変換で規格化したもの)から$k$個だけ数字を取ってきて二乗和を取った値が従う分布である。
二乗和といえば分散である。
しかも多数のデータの平均を取れば中心極限定理によって正規分布に近づいていくのだから、
前提条件もクリアできる。
#用途
ではカイ二乗分布は何に使うのか。
物理実験の場面では実験結果のフィッティングに用いることが多い。
例えばX線のスペクトル(エネルギー分布)のフィッティングを行ったとして、その結果が正しく実験結果を推定しているかをどのように確認すればいいだろうか。
X線のスペクトルとは結局あるエネルギー範囲(ビン)に来たフォトンの個数を数えているので、ビン内のカウントはポアソン分布に従う。カウントが十分多ければ正規分布と近似できる。
フィッティングによる値から実際の値は正規分布で何シグマ分外れているかをすべてのビンについて二乗和を取る。
もしフィッティングが正しく、フィッティングと実験値の差は統計的ゆらぎのみに起因するならば、この二乗和はカイ二乗分布に従う。
自由度がわかればこの二乗和がカイ二乗分布に従う確率が計算できるため、フィッティングが正しいかの検定に使えるのである。
また、以上の話からわかるようにフィッティングと実測値の二乗和をカイ二乗検定に使う場合はポアソン分布が正規分布に近似できることが仮定されている。
この仮定が成り立たないような低カウントではカイ二乗検定の数字は必ずしも意味のあるものとは言えず、議論の根拠として用いるべきではない。
#参考資料
実験屋の為の初等統計学と誤差論 - Qiita
カイ二乗検定 - Wikipedia
【統計学】正規分布とカイ二乗分布の関係を可視化してみる。 - Qiita