連関(association)
・ カテゴリ変数間の相関関係
・ 分割表(contingency table)を用いて計算する
・分割表内の数字を観測度数(observed frequency)という
観測度数は実際のデータで得られた値であり、例えば、あるアンケート調査で100人に
「データサイエンティストを目指す人は統計学を学習しているか」を調査したところ、以下のような分割表になったとしましょう。
「データサイエンティストを目指している」かつ「統計学を勉強している」が25人
「データサイエンティストを目指していない」かつ「統計学を勉強していない」が55人
になったとするとこれは何かしらの相関関係があるといえそうですよね。このとき、連関があるといったりします。
期待度数(expected frequencies)
・ 連関がないと想定した場合の度数
期待度数では、「データサイエンティストを目指している・目指していない」30対70の比率と「統計学を勉強している・勉強していない」40対60の比率から逆算して連関がない場合を想定します。
では、この観測度数、期待度数の分割表から連関の強さをどう考えるかみていきましょう。
連関の強さは、観測度数が期待度数からどれくらい離れているかを考えます。
もし、観測度数が期待度数と近かったら、連関は小さいなとイメージできるかもしれません。
観測度数が期待度数からどれくらい離れているかを計算した値が次回紹介するカイ二乗になります。