概要
相関係数(correlation coefficient)は、2つの変数の間にどの程度の線形的な関係があるかを示す指標です。
値は -1 から +1 の範囲を取り、正の相関・負の相関・無相関を判別する際に利用されます。
統計学や機械学習、データ分析において非常に重要な概念です。
数式
2変数 $X, Y$ の相関係数 $r$ は、以下で定義されます。
$$
r = \frac{\mathrm{Cov}(X, Y)}{\sigma_X , \sigma_Y}
$$
- $\mathrm{Cov}(X, Y)$:共分散
- $\sigma_X$:$X$ の標準偏差
- $\sigma_Y$:$Y$ の標準偏差
数式の説明
-
共分散 $\mathrm{Cov}(X, Y)$
- 2つの変数がどのように一緒に変動するかを表す指標。
- 正の値 → 一方が増えるともう一方も増える傾向(正の相関)。
- 負の値 → 一方が増えるともう一方は減る傾向(負の相関)。
-
標準偏差 $\sigma_X, \sigma_Y$
- 各変数のばらつきの大きさを表す。
- 共分散をそのまま使うと単位に依存してしまうため、標準偏差で割ることでスケールに依存しない指標となる。
-
相関係数 $r$
- 値の範囲:$-1 \leq r \leq +1$
- $r = +1$:完全な正の相関(右上がりの直線関係)
- $r = -1$:完全な負の相関(右下がりの直線関係)
- $r = 0$:相関なし(線形関係はない)
- 値の範囲:$-1 \leq r \leq +1$
具体例
例1:気温とアイスクリームの売上
- 気温が高いと売上も上がる。
- → $r \approx +0.8$(強い正の相関)
例2:気温と暖房使用量
- 気温が高いと暖房の使用量は減る。
- → $r \approx -0.7$(強い負の相関)
例3:靴のサイズとテストの点数
- ほとんど関係がない。
- → $r \approx 0$(無相関)
関連する数式
-
共分散
$$
\mathrm{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})
$$ -
標準偏差
$$
\sigma_X = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}
$$ -
ピアソンの相関係数(標本相関係数)
$$
r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} , \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}}
$$