問題
付録Eに示したラグランジュ未定乗数法を用いて、正則化誤差関数(3.29)の最小化と、正則化されていない二乗和誤差(3.12)の制約条件(3.30)下での最小化が等価であることを示せ。そして、パラメータ$\eta$と$\lambda$の関係を議論せよ。
解答
正則化誤差関数
\begin {align*}
\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}+\frac{\lambda}{2} \sum_{j=1}^{M}\left|w_{j}\right|^{q}
\tag{3.29}
\end {align*}
(3.29)を最小化することと、
\begin {align*}
E_{D}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}
\tag{3.12}
\end {align*}
\begin {align*}
\sum_{j=1}^{M}\left|w_{j}\right|^{q} \leqslant \eta
\tag{3.30}
\end {align*}
正則化されていない二乗和誤差(3.12)を制約条件(3.30)の下で最小化することは等価であることを示せばよい。
まず、(3.30)は式を変形してやると、
\begin {align*}
\ - \frac{1}{2}\left(\sum_{j=1}^{M}\left|w_{j}\right|^{q}-\eta\right) \geq 0 \\
\tag{3.30.1}
\end {align*}
と書き直すことができる。(3.12)を(3.30.1)の条件下で最小化することはラグランジュの未定乗数法を用いると、
\begin {align*}
L(\mathbf w, \lambda) = \frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} + \frac{\lambda}{2}\left(\sum_{j=1}^{M}\left|w_{j}\right|^{q}-\eta\right)
\tag{ex3.5.1}
\end {align*}
\begin {align*}
\left\{\begin{aligned}
-\frac{1}{2}\left(\sum_{j=1}^{M}\left|w_{j}\right|^{q}-\eta\right) & \geq 0 \\
\lambda & \geq 0 \\
-\frac{\lambda}{2}\left(\sum_{j=1}^{M}\left|w_{j}\right|^{q}-\eta\right) &=0
\end{aligned}\right.
\tag{ex3.5.2}
\end {align*}
(ex3.5.1)で表される$L(\mathbf w, \lambda)$を(ex3.5.2)の条件下で$\mathbf w$に対して最小化することと等しい。
$L(\mathbf w, \lambda)$の$\mathbf w$における最小化を考えると$\frac{\lambda\eta}{2}$の項は無視することができる。そのため正則化誤差関数(3.29)の最小化と、正則化されていない二乗和誤差(3.12)の制約条件(3.30)下での最小化が等価であることが示された。
また、$L(\mathbf w, \lambda)$を最小化するような$\mathbf w$を$\mathbf w^*$とすると、(ex3.5.1)を$\lambda$で偏微分してやることにより、
\begin {align*}
\sum_{j=1}^{M}\left|w^*_{j}\right|^{q} = \eta
\tag{ex3.5.3}
\end {align*}
となる。このことを図によって説明したのがPRML本文における図3.4である。