#参考本
多変量解析 小西貞則著
前回記事
正規化法
複雑な現象の構造を近似する非線形回帰モデルを推定するための方法の一つである正則化法について。
正則化最小2乗法
$p$次元説明変数ベクトルを$\boldsymbol x$で表し, 目的変数$y$に関して観測された$n$組のデータを${ (\boldsymbol x_i, y_i); i = 1, 2, 3 \cdots, n}$とする.
(ベクトルは縦ベクトルを考える.)
$$y_i = \sum_{j= 0}^m \omega_j b_j(\boldsymbol x_i) + \epsilon _i , i= 1,2, \cdots,n$$
$$\boldsymbol y = B\boldsymbol \omega +\boldsymbol \epsilon$$
$\boldsymbol y$は観測値ベクトル, $\boldsymbol w$は$m$次元のパラメータ(ウエイト)ベクトル
さらに
$$B = \begin{pmatrix}
b_1(\boldsymbol x_1) && b_2(\boldsymbol x_1) && \cdots && b_m(\boldsymbol x_1) \
b_1(\boldsymbol x_2) && b_2(\boldsymbol x_2) && \cdots && b_m(\boldsymbol x_2) \
\vdots && \vdots && \cdots &&
\vdots \
b_1(\boldsymbol x_n) && b_2(\boldsymbol x_n) && \cdots && b_m(\boldsymbol x_n) \
\end{pmatrix}$$
これまで通り誤差項に対して以下を仮定する
$$E[{\epsilon_i}]= \boldsymbol 0 {iは添え字}$$
$$E[{\boldsymbol \epsilon}{\boldsymbol \epsilon}^T]= \sigma^2 I$$
基底関数の増加は、ぱらめーた数の増加に伴うモデルのデータへの過学習と推定の不安定を誘発するので場合によっては最小2乗推定量に含まれる$(B^TB)^{-1}$の計算が右脳になることもある。モデルの複雑さが増すにつれて減少する誤差項の2乗和に逆にモデルの複雑さに依存して値が大きくなるペナルティ項$R$を課した関数
$$S_\gamma(\boldsymbol \omega) =(\boldsymbol y - B \boldsymbol \omega)^T(\boldsymbol y - B \boldsymbol \omega)+ \gamma R$$
の最小化をはかる. このパラメータ$\gamma$は正則化パラメータと呼ばれ、モデルの適合度と曲線の滑らかさを指す。
この推定法は正則化最小2乗法と呼ばれる.
#正則化最尤法
対数尤度関数(先述)にペナルティ項を課すことで、正則化法を構成できる。
誤差項$\epsilon_i$ ($i = 1, 2,\cdots, n$)は互いに独立に平均0、分散$\sigma^2$の正規分布に従うものとする. このとき、ガウスノイズを持つ非線形回帰関数モデルの対数尤度関数は
$$l(\boldsymbol \theta) = \sum_{i=1}^n \log f(y_i|\boldsymbol x_i; \boldsymbol \omega, \sigma^2)= -\frac{n}{2} log(2\pi \sigma^2)-\frac{1}{2\sigma^2}(\boldsymbol y -B \boldsymbol \omega)^T(\boldsymbol y -B \boldsymbol \omega)$$
である。
ただし、$\boldsymbol \theta = (\boldsymbol \omega^T, \sigma^2)^T$である
この対数尤度関数の最大化によって$\boldsymbol \omega$と$\sigma^2$の最尤推定量は$\hat{\boldsymbol \omega}= (B^TB)^{-1}B^T\boldsymbol y$, $\hat{\boldsymbol \sigma}^2= \frac{1}{n}(\boldsymbol y -B \boldsymbol \omega)^T(\boldsymbol y -B \boldsymbol \omega)$
最大対数尤度は、
$$l(\hat{\boldsymbol \theta)} = -\frac{n}{2} \log(2\pi) -\frac{n}{2} \log(\hat{\sigma}^2)-\frac{n}{2}$$
#複雑なモデル化に対しては
多数パラメータをもつモデルを最尤法によって推定しようとすると対数尤度の値は、構造を近似するモデルがデータの近くを通るにつれ次第に大きくなっていく。
分散の最尤推定値が残差平方和
に相当していることからモデルが複雑に連れて減少し(ごく小さいものの2乗、これは個数が大きくなっても影響は大きい。)
$$\log(\hat{\sigma}^2)$$の絶対値が大きくなる。
$$l_\lambda(\boldsymbol \theta) =\sum_{i=1}^{n} \log f(y_i| \boldsymbol x_i; \boldsymbol \theta) -\frac{\lambda}{2} R(\boldsymbol \omega)$$