introduction
機械学習や非線形回帰を行う際、モデルが複雑になるにつれ、過学習が起きやすくなるので、モデルの複雑さに依存して(比例して)値が増加する項、パラメータに制約を課す項のどちらかを設けよう。
誤差の2乗和や対数尤度関数による評価関数に基づいて正則化法でモデルを推定する。
関連記事
荷重減衰
ここまで非線形回帰モデルのパラメータの最小2乗推定量は
$$\hat{\boldsymbol \omega}=(B^{T}B)^{-1} y$$
で与えられる。
大雑把に言ってモデルが複雑になると、基底関数の増加に伴い$(B^TB)^{-1}$の計算が不能と「なることもある。」
こういうとき、複雑になるにつれ小さくなる誤差項とは対照的に、大きくなるペナルティ項を加えた関数
$$S_{\gamma}(\boldsymbol \omega)=(\boldsymbol y -B\boldsymbol \omega)^T(\boldsymbol y -B\boldsymbol \omega)+ \gamma R(\boldsymbol \omega)$$の最小化をはかる。この$\gamma$は正則化パラメータと呼ばれる。モデルの適合度を調整し、推定量の安定化に寄与する。ペナルティ項は正則化項とも呼ばれ、こういった手法を正則化最小2乗法という。
正則化法
$$R(\boldsymbol \omega)= \omega^T \omega= \sum_{j = 1}^{m} |\omega_j|^2$$
モデルのパラメータベクトル$\boldsymbol \omega$の正則化最小2乗推定値$$\hat{\boldsymbol \omega}=(B^{T}B+\gamma K)^{-1} y$$
上記の$K=I_d$と置いたリッジ型の推定量を与え機械学習の分野では${\boldsymbol 荷重減衰}$として知られている.
より拡張した正則化最小2乗法
$$S_{\gamma}(\boldsymbol \omega)=(各成分の誤差の2乗和)+ \gamma L_p(\boldsymbol \omega)$$
$L_p$:ベクトルを引数とし$L_p$ノルムをとる関数
$p=2$ リッジ型推定
$p=1$ $L_1$ lasso推定