正の相関、負の相関、無相関
相関には正の相関と負の相関があります。
正の相関では共分散は正、負の相関では共分散は負になります。
ここで、$(𝑥_𝑖−\bar{𝑥})(𝑦_i−\bar{y})$がどういう時に正になり、どういうときに負になるか考えてみましょう!
負になる場合は、$(𝑥_𝑖−\bar{x})$か$(𝑦_𝑖−\bar{𝑦})$が負のとき、つまり$𝑥_𝑖$が$\bar{𝑥}$よりも小さくて$𝑦_𝑖$が$\bar{y}$よりも大きいとき、もしくはその逆です。正になるときは$(𝑥_𝑖−\bar{x})$か$(𝑦_𝑖−\bar{𝑦})$が両方とも正のとき、もしくは負のときです。
そして、共分散はこの$(𝑥_𝑖−\bar{x})$か$(𝑦_𝑖−\bar{𝑦})$を全ての値において足し合わせていくのです。そして、共分散の値が大きくなれば正、小さくなれば(マイナスであれば)負となることがわかる。
整理すると、右肩上がりのような散布図(左上図)の場合は、正の相関である。
右肩下がりの場合は、負の相関となる。では、どっちとも取れなさそうな散布図(左下図)だとしたらどうでしょう。
これは、無相関と言い、お互いの変数は独立であるといいます。無相関の場合、共分散を計算すると正と負で互いに打ち消しあうこととなるので、値は0に近づきます。
※共分散が0だからといって、相関がないとは言えないので注意(右下図のような場合もある)
共分散はこれらの相関の強さの指標になりますが、計算した共分散の値をどう解釈していいか悩みますよね。
前回の記事で計算した結果について、これが強い相関なのか弱い相関なのか判断ができないのです。
array([[78.92813149, 8.28938892],
[ 8.28938892, 1.90660851]])
そこで、共分散が取りうる値をある値の範囲を“標準化”することを考えます。
共分散を標準化した値が相関係数になります。