はじめに
先日、ビッグデータの解析について記事を書きました。
そこで、相関係数を算出しましたが
「正規化する前とした後で相関係数に違いってあるのかな?」
ということで試したところ全く変化がありませんでした。
コメントで
「正規化は線形変換の1つであるため、変換後のデータを使って計算される相関係数は変換前のデータでの相関係数と全く同じである」
ということを教えていただきました。
今回は、それを式を使って証明できることを会社の先輩にご教授いただきましたので共有します!
証明開始
相関係数は、2つのデータセットの関連性を表す指標であり、以下の式で計算されます。
$$
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}
$$
- $x_i$と$y_i$は、それぞれのデータセットの個々のデータポイント
- $\bar{x}$と$\bar{y}$は、それぞれのデータセットの平均値
正規化は、データをスケーリングして、平均が0、標準偏差が1になるように変換するため、
正規化されたデータポイント$x_i'$と$y_i'$は以下のように計算されます。
$$
x'_i = \frac{x_i - \bar{x}}{s_x}
$$
$$
y'_i = \frac{y_i - \bar{y}}{s_y}
$$
ここで、$S_x$と$S_y$は、それぞれのデータセットの標準偏差です。
正規化されたデータの相関係数$r'$は以下のようになります。
$$
r' = \frac{\sum (x_i')(y_i')}{\sqrt{\sum (x_i')^2 \sum (y_i')^2}}
$$
この式を使用して、正規化する前と後の相関係数が等しいか示すことができます。
証明は以下のステップに従います。
- $x'_i$と$y'_i$の式を$r'$の式に代入
- 簡略化して、$r'$と$r$が等しいことを示す
正規化後の相関係数$r'$は以下の式として得られる。
$$
r' = \frac{\sum \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right)}{\sqrt{\sum \left( \frac{x_i - \bar{x}}{s_x} \right)^2 \sum \left( \frac{y_i - \bar{y}}{s_y} \right)^2}}
$$
この式をさらに簡略化すると、元の相関係数$r$の式と同じになります。
具体的には、分子の部分は$x_i-\bar{x}$と$y_i-\bar{y}$の積の和として表され、分母の部分はそれぞれのデータセットの分散の平方根の積として表されます。
これらの部分は、正規化する前のデータセットの相関係数の式と一致しています。
したがって、正規化前後で相関係数が変わらないことが証明されました。
まとめ
データ解析を行ううえで統計学なども勉強はしていますが、こういった数学的要素も非常に重要ですね。
今後も評価指標なども数学的要素が絡んできますので、並行して学んでいけたらと思います。
それでは!!!