はじめに
回帰分析について調べていると必ず決定係数という単語を目にすると思います。
そこで、本記事では決定係数と密接に関係している全変動と回帰変動と残差変動について説明してきます
前提
全変動(Total Variation): TSS(Total Sum of Squares)
\text{Total Variation} = \sum_{i=1}^{n} (y_i - \bar{y})^2
データがどれぐらい散っているのかを表す指標です。
また、この数値は回帰モデルとは全く関係がない値であり、生データのばらつきを表す指標です
例えば、テストの点数のデータを集めるとしましょう
サンプル1
サンプル2
以上2つのようなデータがとれた場合サンプル2の方が各データと平均の距離が近いことがわかります。
そのため、全変動もサンプル2の方が小さくなります
余談
また、似たような概念として分散が存在します。
\text{Variance} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})> ^2
こちらは全変動を n(データの数)で割っているため、変動の平均を求めることができます
回帰変動(Regression Variation): SSR(Sum of Squares due to Regression)
\text{Regression Variation} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2
回帰モデルを適用した時、実際のデータの平均とどれほどの差分が存在するかを表す指標です
残差変動(Residual Variation): SSE(Sum of Squared Errors)
\text{Residual Variation} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
回帰モデルを適用した時、実際のデータとどれほどの差分が存在するかを表す指標です
「1日の勉強時間」から「テストの点数」を求めたいとします。
また、直線が回帰モデル、黒点が実際のデータ、赤線が回帰モデルと実際のデータの距離とします。
そうすると以下の図のようになりました
残差変動とは、黒点(実際のデータ)と直線(回帰モデルで予測された値)の赤線(距離)の総和のことです
三つの値の関係性
三つの値には以下の関係があります
「全変動」=「回帰変動」+「残差変動」
参考文献