ピアソンの積率相関係数
2つの量的変数をそれぞれX軸、Y軸とした平面に、各観測値を点でプロットしたグラフを散布図と言います。xの値が増加した時にyの値も増加するという関係を正の相関関係、xの値が増加した時にyの値が減少するという関係を負の相関関係、xの値が増加してもyの値に増減が見られない場合を無相関と言います。
相関関係は必ずしも因果関係を示すものではありません。
2変数間の線形関係(直線的関係)の強さを測る統計量の1つに**相関係数(ピアソンの積率相関係数)**があります。標本相関係数r・母相関係数ρは無名数(無次元数)であり、-1以上1以下の実数に値をとり、それぞれ次のように表せます。
標本相関係数r=\frac{S_{xy}}{S_xS_y}=\frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2}\sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i-\bar{y})^2}}
母相関係数ρ=\frac{Cov[X,Y]}{σ_xσ_y}=\frac{E[(X-E[X])(Y-E[Y])]}{\sqrt{E[(X-E[X])^2]}\sqrt{E[(Y-E[Y])^2]}} (Cov[X,Y]は共分散)
※共分散・相関係数ともに2変数間の関係を示しますが、「データの単位」が値に影響を与える共分散よりも、無名数(無次元数)であり単位の影響を受けない相関係数の方が多く使用されます。
無相関の検定
標本相関係数rを用いて、「2変数X,Yの間に相関がない(母相関係数が0である)」という帰無仮説を立てて検定を行うことを**「無相関の検定」と言います。無相関の検定では、以下で示される検定統計量tが「自由度n-2」**のt分布に従うことを用いて検定を行います。
t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}
帰無仮説が棄却された場合、対立仮説の「母相関係数が0ではない」という主張が採択され、「2変数X,Yの間で相関がある」と結論付けることができます。
偏相関係数
XとYという2つの事象に本来因果関係が存在しないのにもかかわらず、第3の要因ZによってあたかもXとYの相関関係があるように見えてしまうという相関を擬似相関と言います。
擬似相関を引き起こす第3の要因Zの影響を取り除いたXとYの相関係数を偏相関係数と言い、次のように表されます。
偏相関係数r_{xy・z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r^2_{xz}}\sqrt{1-r^2_{yz}}} (r_{xy}:XとYの相関・r_{yz}:YとZの相関・r_{xz}:XとZの相関)
画像引用:LAAD|第10章 論理的思考のまとめ
順位相関係数
2組のデータX,Yが数量ではなく順位(順序尺度)で与えられているとき、その相関係数を順位相関係数と言います。2変数間の関係が線形であることを仮定する必要も、変数を数値的にとる必要もなく、単に順位が分かれば良いとします。
スピアマンの順位相関係数
Nを標本の個数、Dを2変数X,Yの順位の差とした時に、スピアマンの順位相関係数rは以下のように表されます。
r=1-\frac{6\sum_{i=1}^{n} D^2}{N^3-N}
ケンドールの順位相関係数(ケンドールのタウ)
2つのリストP,Qの組み合わせ(nC2通り)を考えて、正順の組み合わせなら+1、逆順の組み合わせなら-1とした時の全組み合わせにおける割合で定義される順位相関係数をケンドールのタウτと言い、以下のように表します。正順とは、Pi>PjかつQi>QjまたはPi<PjかつQi<Qjとなることを指し、逆順とは正順ではないパターンのことを指します。
τ=\frac{P-Q}{nC_2}
尺度水準
統計学では変数をその性質に応じて、以下の4つの尺度に分けて考えることがあります。
① 名義尺度
▶︎他と区別し分類するための名称・例)血液型・郵便番号・学籍番号
▶︎名義尺度・順序尺度で測定されるデータをカテゴリカルデータと言い、カテゴリに属するか・属さないかを「1・0」で変換したものをダミー変数と言います
② 順序尺度
▶︎順序や大小には意味はあるが間隔には意味がないもの・例)「震度2/震度3/震度4」という震度の大きさ・「1.良い/2.普通/3.悪い」というアンケートの回答
▶︎「与えられた母集団が何らかの分布に従っている」という前提がないノンパラメトリック手法で活用されます
③ 間隔尺度
▶︎目盛りが等間隔になっており、その間隔に意味があるもの・例)気温・西暦・テストの点数
▶︎「3℃は1℃の3倍熱い」と言うことができず、間隔尺度の値の比率には意味がありません
④ 比例尺度
▶︎0が原点であり、間隔と比率に意味があるもの・例)身長・速度・質量
▶︎間隔尺度は0に意味がありますが、**比例尺度は0が「無いことを示す」**ため0に意味はありません
また名義尺度・順序尺度を**「質的変数(カテゴリカル変数)」、間隔尺度・比例尺度を「量的変数」**と言います。
数値ではない定性データであるカテゴリカル変数は文字列であるため、機械学習の入力データとして使用するために数値に変換するというダミー変数化という作業を行います。ダミー変数化は**「カテゴリに属する場合には1を、カテゴリに属さない場合には0を与える」**という部分は基本的に共通しますが、変換の仕方で以下の3つに区分されます。
- ダミーコーディング▶︎自由度k-1のダミー変数を作成する
- ONE-HOTエンコーディング▶︎カテゴリの水準数kの数のダミー変数を作成する
- EFFECTエンコーディング▶︎ダミーコーディングのとき、全ての要素が0のベクトルを-1に置き換えたものに等しくなるようにダミー変数を作成する