1. 概要
よく相関係数は、「2種類の対応するデータの関連性を示す指標」と説明される。
しかし、相関係数を「2つの変数の関係」とみなすと、誤りになる。
このことは、相関係数が、変数に対する指標ではなく、変数と「その分布」を両方考えたときの指標であることに由来する。
2. よくある誤解
確率変数 $X$ があって、1変数関数 $g$に対して、 $Y=g(X)$ として確率変数 $Y$ を定義する場合を考える。
次のような誤解がよくある。(というか、筆者はしていた)
この時、$X$と$Y$の相関係数は、$g$だけで決まるはずでしょ。
だって、相関係数って、$X$と$Y$の関係だもんね。
例えば、「$X$と$X^2$の相関係数は、計算すれば直ちに(他の条件を一切仮定しなくても)求められるはずだ」という誤解だ。
3. 実際はどうか
$X$と$Y$の相関係数 $\rho[X,Y]$ は
$$
\rho[X,Y] = \frac{
\mathbb{Cov}[X,Y]
}{
\sqrt{
\mathbb{Var}[X]\mathbb{Var}[Y]
}
}
$$
であるから、$X$の分散に依存する。つまり、$g$だけでは決まらない。
$g$が決まっても、$X$の分散が変われば、相関係数も変化する。
$X$と$Y$の共分散 $\mathbb{Cov}[X,Y]$ も、
$$
\mathbb{Cov}[X,Y] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]
$$
であるから、$X$ の期待値に依存し、$g$だけでは決めることが出来ない。
ようするに、相関係数とは、「2変数の関係」ではなく、「2つの『変数とその分布』の関係」なのである。
4. 直感的にいうと
「$g$が決まっただけでは相関係数が一意に決まらず、$X$の分布によって相関係数が変化してしまう」
ことについて、直感的でわかりやすい例がある。
$Y = g(X) = X^2$
と置く。
(1) $X$ が正に集中している場合
→ $X$が大きくなれば$X^2$も大きくなる傾向にある
→ 相関係数は正のはず
(2) $X$ が負に集中している場合
→ $X$が大きくなれば$X^2$は小さくなる傾向にある
→ 相関係数は負のはず