#1. 要約
今回は重回帰分析の決定係数,TSS,RSS,ESSについて解説しました.余談ですが,友人に「機械学習タグで重回帰分析って(笑)」みたいなこと言われちゃいました.
#2. TSS,RSS,ESSってなに?
重回帰分析のモデル式は$$y = X\beta +e$$であり,係数$\beta$の最小二乗推定量および従属変数の予測ベクトルはそれぞれ,$$\widehat{\beta}=(X^TX)^{-1}X^Ty$$$$\widehat{y}=X\widehat{\beta}=X(X^TX)^{-1}X^Ty$$で定義されます.ここで$H:=X(X^TX)^{-1}X^T$は射影行列であり,以下の性質を満たします.
- $H^T = H\ (\mbox{対称性})$
- $H^2=H\ (\mbox{冪等性})$
従属変数ベクトル$y$とその予測ベクトル$\widehat{y}$と平均ベクトル$$\bar{y}=\frac{1}{N}\sum_{i=1}^Ny_i1_n=Wy$$を用いて総変動(Total Sum of Squares, TSS),残差変動(Residuals Sum of Squares, RSS),回帰変動(Explained Sum of SquaresESS)を定義します.ここで$W$は$W \in R^{N\times N}$で各要素が$1/N$であるような行列を表しています.総変動は
\begin{eqnarray}
TSS = \sum_{i=1}^N(y_i-\bar{y}_i)^2=||y-\bar{y}||^2
\end{eqnarray}
で定義される量で,標本平均からのずれを表しています.回帰変動は
\begin{eqnarray}
ESS = \sum_{i=1}^N(\widehat{y}_i - \bar{y}_i)^2=||\widehat{y}-\bar{y}||^2
\end{eqnarray}
で定義される量で,予測値と標本平均のずれを表しています.最後に残差変動は
\begin{eqnarray}
RSS = \sum_{i=1}^N(y_i-\widehat{y}_i)^2=||y-\widehat{y}||^2
\end{eqnarray}
で定義される量で,観測データと予測のずれを表しています.これらの量には$$TSS=ESS+RSS$$という関係があり,それを利用して決定係数も定義されます.
~証明~
TSSの式に$-\widehat{y}_i$を挟み込むと
\begin{eqnarray}
\sum_{i=1}^N(y_i-\bar{y}_i)^2 &=& \sum_{i=1}^N(y_i-\widehat{y}_i+\widehat{y}_i-\bar{y}_i)^2\\
&=& \sum_{i=1}^N(y_i-\widehat{y}_i)^2+\sum_{i=1}^N(\widehat{y}_i-\bar{y}_i)^2+2\sum_{i=1}^N(y_i-\widehat{y}_i)(\widehat{y}_i-\bar{y}_i)\\
&=& RSS+ESS+2\sum_{i=1}^N(y_i-\widehat{y}_i)(\widehat{y}_i-\bar{y}_i)
\end{eqnarray}
となるが,第3項は
\begin{eqnarray}
\sum_{i=1}^N(y_i-\widehat{y}_i)(\widehat{y}_i-\bar{y}_i) &=& \sum_{i=1}^N
e_i(\widehat{y}_i-\bar{y}_i)\\
&=& \sum_{i=1}^Ne_i\widehat{y}_i-\bar{y}\sum_{i=1}^Ne_i\\
&=& e^T\widehat{y} - \bar{y}*0\\
&=& e^TX\widehat{\beta}\\
&=& [\sum_{i=1}^Ne_ix_{i1},\cdots,\sum_{i=1}^Ne_ix_{ip}]\widehat{\beta}\\
&=& n[s_{ex_1},s_{ex_2},\cdots,s_{ex_p}]\widehat{\beta}\\
&=& n*0_p^T\widehat{\beta}=0
\end{eqnarray}
となることから,$$TSS=ESS+RSS$$と分割されることがわかった.なお途中で残差ベクトル$e$とデータ$x_{.j}(j=1,\cdots,p)$の共分散を要素とするベクトルが$s_{ex}=0_p$であることを利用した.
#3. 決定係数
決定係数$R^2$は$$TSS = ESS + RSS$$と総変動が回帰変動と残差変動に直和分解されることを利用して,
\begin{eqnarray}
R^2 = \frac{ESS}{TSS} = 1-\frac{RSS}{TSS}
\end{eqnarray}
で定義される量で,総変動のうち推定されたモデルでどの程度説明されているか(=一つ目の等式)を表しており,重回帰分析におけるモデル選択の一つの指標として利用されています.他に利用されるモデル選択の指標としてはAIC(Akaike Information Criterion)やBIC(Bayesian Information Criterion)などがあります.これらはモデルの対数尤度とパラメータ数によって定まる量です.勉強して次回以降の記事にまとめます.
おまけ
後ほど更新します.
参考文献
Hastie, Tibshirani, Friedman(2009). The elements of statistical learning
稲垣「数理統計学」