決定係数とは
データに対する推定された回帰式の当てはまりの良さ(度合い)を表します。
分かりやすくいうと、値同士が本当に関係しあっているのかを数値化したものです。
例えば、「テストの成績の良さ」を予測したいとします。
この時「普段の勉強時間」は、「テストの成績の良さ」に関係してそうですよね
しかし「月に美容院に行く回数」はあまり関係なさそうです
以上のように予測したい値に対して、入力するパラメータが本当に関係あるかどうかを数値として表現したものが決定係数です
一般的には 0.2 ~ 0.9 あたりの数値を取ることが多いです。ただ、どの数値を閾値とするかは開発者によるため、絶対的な数値はありません。
また、なるべく少ない変数で予測を行うことが大切で説明力を上げるのよりも優先すべきとされています
決定係数の求め方
R^2 = 1 - \frac{\text{Residual Variation}}{\text{Total Variation}}
以上が決定係数の公式です。
決定係数を求めるには、全変動(Total Variation)と回帰変動(Regression Variation)を用います
詳しくは以下の記事をご覧ください
自由度修正済決定係数
決定係数の特徴として、入力するパラメータが多ければ多いほど値が高くなってしまう
という欠点があります
最初の例で言うと「テストの成績の良さ」とは全く関係のないパラメータが大量に存在すると、システム的には正しいものだと誤認されてしまうということです
nをサンプルサイズ(データセットの数)、pをモデル内の説明変数の数とすると以下の式で表せます
R_{\text{adj}}^2 = 1 - \frac{\text{Residual Variation} / (n - p - 1)}{\text{Total Variation} / (n - 1)}
先ほど決定係数の式に新しく説明変数の数が加わりました。
こうすることで説明変数が増えるたびに決定係数が下がるというペナルティの概念を組み込むことができ、パラメータの増加による決定係数の劣化を軽減することができます
参考文献