前回の記事で記載した[カイ二乗検定]では、クロス表全体に対して関係性があるかどうかの検証ができた。
P値が有意水準以下となり「関係性がある」と言えた場合に、具体的にどの組み合わせで関係性があるかを分析する方法が「残差分析」。
1. 残差分析
残差とは「観測値−期待値」のことであり、残差分析を行うことで期待度数と観測値のずれが特に大きいセルを知ることが出来る
残差分析を行う際に使用するのが「調整済み標準化残差」であり、それを正規近似して 𝑝 値を計算する
調整済み標準化残差=\frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}\cdot(1 - n_{i\cdot}/N)(1 - n_{\cdot j}/N)}}
※𝑂は観測度数、𝐸は期待度数、𝑛は行または列の観測値の合計値、𝑁が観測値の合計値
- 調整済み標準化残差の詳細
調整済み標準化残差を算出するには、標準化残差を計算する必要がある。
標準化残差とは残差を標準偏差で割ったもので、近似的に正規分布𝑁(0,𝑣𝑖𝑗)に従うことが知られている
標準化残差=\frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}}}
\upsilon_{ij}=(1 - n_{i\cdot}/N)(1 - n_{\cdot j}/N)
調整済み残差というのは、標準化残差とその分散を用いて標準化変換を行ったもの
調整済み残差=\frac{e_{ij}}{\sqrt{\upsilon_{ij}}}
したがって調整済み残差の分布は、近似的に平均0,標準偏差1の標準正規分布としてP値を算出できる
3. Excelを使用した算出方法
B1 | B2 | 合計 | |
---|---|---|---|
A1 | X11 | X12 | a1 |
A2 | X21 | X22 | a2 |
合計 | b1 | b2 | N |
①クロス集計表の行合計の構成比率を計算する
B1 | B2 | 合計 | |
---|---|---|---|
合計 | b1/N | b2/N | 1 |
②周辺和の積を総数で割って期待度数を算出する
B1 | B2 | 合計 | |
---|---|---|---|
A1 | a1×b1/N | a1×b2/N | a1×1 |
A2 | a2×b1/N | a2×b2/N | a2×1 |
③調整済み標準化残差を算出する
調整済み標準化残差 = (観測度数-期待度数) / {期待度数 ×(行の周辺和/総数)×(列の周辺和/総数)}
④NORM.S.DIST関数を使用して有意確率(P値)を算出する
ノーマル・スタンダード・ディストリビューション
P値 = NORM.S.DIST(ABS(調整済み標準化残差),TRUE)
4. 有意確率(P値)
上記で算出された有意確率(P値)が事前に決めた有意水準(誤判断リスクの上限)より低い場合に
そのセルがカイ二乗検定の有意な検定結果に寄与していると判断できます。
References
統計WEB
Excelで学ぶ 実践ビジネスデータ分析