演習4.2
目標値の分布が超平面に載るという拘束条件の下、誤差関数を最小二乗にしてクラス分類すると、その予測値の分布も超平面上に載るということを証明する問題。
以下、証明を示す。
パラメータ $\mathbf{w}_{0}$ がバイアスとして働くと仮定すると、4.15式は
\begin{aligned}
\mathbf{E}_{D}(\tilde{\mathbf{W}}) = \frac{1}{2} \mathrm{Tr} (( \mathbf{X}\mathbf{W}+\mathbf{1} \mathbf{w}_{0}^{\mathrm{T}} - \mathbf{T})^{\mathrm{T}}
( \mathbf{X}\mathbf{W}+\mathbf{1} \mathbf{w}_{0}^{\mathrm{T}} - \mathbf{T})
)
\end{aligned}
$\mathbf{T}$は$N×K$行列、$N×(D+1)$、$\mathbf{W}$は$(D+1)×K$
行列であり、$N$はデータ数、$(D+1)$はデータ次元+バイアス、$K$はクラス数である。
上記の式の$\mathbf{w}_{0}$に関する微分は
\begin{aligned}
\frac{\partial}{\partial \mathbf{w}_{0}}
\mathbf{E}_{D}(\tilde{\mathbf{W}}) &= \frac{1}{2}(\mathbf{W}^\mathrm{T}
\mathbf{X}^\mathrm{T} \mathbf{1}
+(\mathbf{1}^{\mathrm{T}}\mathbf{X}\mathbf{W})^\mathrm{T}
+2N \mathbf{w_{0}} -(\mathbf{1}^\mathrm{T} \mathbf{T})^\mathrm{T}
\mathbf{T}^\mathrm{T} \mathbf{1})\\
\\&=\mathbf{W}^\mathrm{T} \mathbf{X}^\mathrm{T} \mathbf{1}+N \mathbf{w}_{0}
+ \mathbf{T}^\mathrm{T} \mathbf{1}
\end{aligned}
ここで、
\begin{aligned}
\mathbf{w}_{0} \mathbf{1}^\mathrm{T} \mathbf{1} \mathbf{w}_{0}
=N \mathbf{w}_{0} \mathbf{w}_{0} ^\mathrm{T}
\end{aligned}
に注意する。
これが $\mathbf{0}$ となればよいので、
\begin{aligned}
\mathbf{w}_{0} &= \frac{1}{N}(\mathbf{T}^\mathrm{T} \mathbf{1}- \mathbf{W}^\mathrm{T} \mathbf{X}^\mathrm{T} \mathbf{1})
\\&=\bar{\mathbf{t}} - \mathbf{W} \bar{\mathbf{x}}
\end{aligned}
ただし
\begin{aligned}
\bar{\mathbf{t}}=\frac{1}{N} \mathbf{T}^\mathrm{T} \mathbf{1},\bar{\mathbf{x}}=\frac{1}{N} \mathbf{X}^\mathrm{T} \mathbf{1}
\end{aligned}
これを元の式に代入すると
\begin{aligned}
\mathbf{E}_{D}(\tilde{\mathbf{W}}) = \frac{1}{2} \mathrm{Tr} (( \mathbf{X}\mathbf{W}+\bar{\mathbf{T}} - \mathbf{W} \bar{\mathbf{X}} - \mathbf{T})^{\mathrm{T}}
( \mathbf{X}\mathbf{W}+\bar{\mathbf{T}} - \mathbf{W} \bar{\mathbf{X}} - \mathbf{T})
)
\end{aligned}
ただし
\begin{aligned}
\bar{\mathbf{T}}= \mathbf{1} \bar{\mathbf{t}}^\mathrm{T},\bar{\mathbf{X}}= \mathbf{1} \bar{\mathbf{x}}^\mathrm{T}
\end{aligned}
同様にして $\mathbf{W}$ に関する微分を $\mathbf{0}$ とすると
\begin{aligned}
\mathbf{W} &= ((\hat{\mathbf{X}}^\mathrm{T} \hat{\mathbf{X})}^{-1}
\hat{\mathbf{X}} \hat{\mathbf{T}} = {\mathbf{X}^\dagger}
^\mathrm{T} \hat{\mathbf{T}}
\end{aligned}
ただし
\begin{aligned}
\hat{\mathbf{X}} = \mathbf{X}-\bar{\mathbf{X}},\hat{\mathbf{T}} = \mathbf{T}-\bar{\mathbf{T}}
\end{aligned}
以上から新しい入力 $\mathbf{x}^{\star}$ が得られたときの予測値 $y(\mathbf{x} ^ {\star})$ は
\begin{aligned}
y(\mathbf{x}^{\star}) &=
\mathbf{W} \mathbf{x}^{\star} + \mathbf{w}_{0}
\\&= \mathbf{W} \mathbf{x}^{\star} + \bar{\mathbf{t}} - \mathbf{W} ^\mathrm{T} \bar{\mathbf{x}}
\\&= \bar{\mathbf{t}} - \hat{\mathbf{T}} ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\end{aligned}
4.157式はデータ数に関して平均をとって、
\begin{aligned}
\frac{1}{N} \sum_{n=1}^{N} (\mathbf{a}^{T}\mathbf{t}_{n} + \mathrm{b}) &= (\mathbf{a}^{T}\mathbf{t} + \mathrm{b})
\\&= \frac{1}{N} \mathbf{a}^{T}\mathbf{T}^{\mathrm{T}} \mathbf{1} +\mathrm{b}
\\&=0
\end{aligned}
なので、
\begin{aligned}
\mathbf{a}^{T}y(\mathbf{x}^\star)
&= \mathbf{a}^{T}\bar{\mathbf{t}} + \mathbf{a}^{T} \hat{\mathbf{T}} ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\\&= \mathbf{a}^{T}\bar{\mathbf{t}} + \mathbf{a}^{T} (\mathbf{T}- \bar{\mathbf{T}}) ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\\&=\mathbf{a}^{T}\bar{\mathbf{t}} + (\mathbf{a}^{T} \mathbf{T}- \mathbf{a}^{T}\bar{\mathbf{t}\mathbf{1}^{\mathrm{T}}}) ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\\&=\mathbf{a}^{T}\bar{\mathbf{t}} + ( \mathbf{a}^{T}\bar{\mathbf{t}\mathbf{1}^{\mathrm{T}}}- \mathbf{a}^{T}\bar{\mathbf{t}\mathbf{1}^{\mathrm{T}}}) ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\\&=\mathbf{a}^{T}\bar{\mathbf{t}}
\\&=-b
\end{aligned}
より示された。