LoginSignup
3
2

More than 5 years have passed since last update.

PRML 演習 4.2

Last updated at Posted at 2015-04-22

演習4.2

目標値の分布が超平面に載るという拘束条件の下、誤差関数を最小二乗にしてクラス分類すると、その予測値の分布も超平面上に載るということを証明する問題。

以下、証明を示す。

パラメータ $\mathbf{w}_{0}$ がバイアスとして働くと仮定すると、4.15式は

\begin{aligned}
\mathbf{E}_{D}(\tilde{\mathbf{W}}) = \frac{1}{2} \mathrm{Tr} (( \mathbf{X}\mathbf{W}+\mathbf{1} \mathbf{w}_{0}^{\mathrm{T}} - \mathbf{T})^{\mathrm{T}} 
( \mathbf{X}\mathbf{W}+\mathbf{1} \mathbf{w}_{0}^{\mathrm{T}} - \mathbf{T})
)
\end{aligned}

$\mathbf{T}$は$N×K$行列、$N×(D+1)$、$\mathbf{W}$は$(D+1)×K$
行列であり、$N$はデータ数、$(D+1)$はデータ次元+バイアス、$K$はクラス数である。

上記の式の$\mathbf{w}_{0}$に関する微分は

\begin{aligned}
\frac{\partial}{\partial \mathbf{w}_{0}}

\mathbf{E}_{D}(\tilde{\mathbf{W}}) &= \frac{1}{2}(\mathbf{W}^\mathrm{T}
\mathbf{X}^\mathrm{T} \mathbf{1} 
+(\mathbf{1}^{\mathrm{T}}\mathbf{X}\mathbf{W})^\mathrm{T}
+2N \mathbf{w_{0}} -(\mathbf{1}^\mathrm{T} \mathbf{T})^\mathrm{T}
\mathbf{T}^\mathrm{T} \mathbf{1})\\
\\&=\mathbf{W}^\mathrm{T} \mathbf{X}^\mathrm{T} \mathbf{1}+N \mathbf{w}_{0}
+ \mathbf{T}^\mathrm{T} \mathbf{1}
\end{aligned}

ここで、

\begin{aligned}
\mathbf{w}_{0} \mathbf{1}^\mathrm{T} \mathbf{1} \mathbf{w}_{0}
=N \mathbf{w}_{0} \mathbf{w}_{0} ^\mathrm{T}
\end{aligned}

に注意する。
これが $\mathbf{0}$ となればよいので、

\begin{aligned}
\mathbf{w}_{0} &= \frac{1}{N}(\mathbf{T}^\mathrm{T} \mathbf{1}- \mathbf{W}^\mathrm{T} \mathbf{X}^\mathrm{T} \mathbf{1})
\\&=\bar{\mathbf{t}} - \mathbf{W} \bar{\mathbf{x}}
\end{aligned}

ただし

\begin{aligned}
\bar{\mathbf{t}}=\frac{1}{N} \mathbf{T}^\mathrm{T} \mathbf{1},\bar{\mathbf{x}}=\frac{1}{N} \mathbf{X}^\mathrm{T} \mathbf{1}
\end{aligned}

これを元の式に代入すると

\begin{aligned}
\mathbf{E}_{D}(\tilde{\mathbf{W}}) = \frac{1}{2} \mathrm{Tr} (( \mathbf{X}\mathbf{W}+\bar{\mathbf{T}} - \mathbf{W} \bar{\mathbf{X}} - \mathbf{T})^{\mathrm{T}} 
( \mathbf{X}\mathbf{W}+\bar{\mathbf{T}} - \mathbf{W} \bar{\mathbf{X}} - \mathbf{T})
)
\end{aligned}

ただし

\begin{aligned}
\bar{\mathbf{T}}= \mathbf{1} \bar{\mathbf{t}}^\mathrm{T},\bar{\mathbf{X}}= \mathbf{1} \bar{\mathbf{x}}^\mathrm{T} 
\end{aligned}

同様にして $\mathbf{W}$ に関する微分を $\mathbf{0}$ とすると

\begin{aligned}
\mathbf{W} &= ((\hat{\mathbf{X}}^\mathrm{T} \hat{\mathbf{X})}^{-1} 
\hat{\mathbf{X}} \hat{\mathbf{T}} = {\mathbf{X}^\dagger}
^\mathrm{T} \hat{\mathbf{T}}
\end{aligned}

ただし

\begin{aligned}
\hat{\mathbf{X}} = \mathbf{X}-\bar{\mathbf{X}},\hat{\mathbf{T}} = \mathbf{T}-\bar{\mathbf{T}}
\end{aligned}

以上から新しい入力 $\mathbf{x}^{\star}$ が得られたときの予測値 $y(\mathbf{x} ^ {\star})$ は

\begin{aligned}
y(\mathbf{x}^{\star}) &= 
\mathbf{W} \mathbf{x}^{\star} + \mathbf{w}_{0}
\\&= \mathbf{W} \mathbf{x}^{\star} + \bar{\mathbf{t}} - \mathbf{W} ^\mathrm{T} \bar{\mathbf{x}} 
\\&= \bar{\mathbf{t}} - \hat{\mathbf{T}} ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\end{aligned}

4.157式はデータ数に関して平均をとって、

\begin{aligned}
\frac{1}{N} \sum_{n=1}^{N} (\mathbf{a}^{T}\mathbf{t}_{n} + \mathrm{b}) &= (\mathbf{a}^{T}\mathbf{t} + \mathrm{b})
\\&= \frac{1}{N} \mathbf{a}^{T}\mathbf{T}^{\mathrm{T}} \mathbf{1} +\mathrm{b} 
\\&=0
\end{aligned}

なので、

\begin{aligned}
\mathbf{a}^{T}y(\mathbf{x}^\star) 
&= \mathbf{a}^{T}\bar{\mathbf{t}} + \mathbf{a}^{T} \hat{\mathbf{T}} ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\\&= \mathbf{a}^{T}\bar{\mathbf{t}} + \mathbf{a}^{T} (\mathbf{T}- \bar{\mathbf{T}}) ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\\&=\mathbf{a}^{T}\bar{\mathbf{t}} + (\mathbf{a}^{T} \mathbf{T}- \mathbf{a}^{T}\bar{\mathbf{t}\mathbf{1}^{\mathrm{T}}}) ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\\&=\mathbf{a}^{T}\bar{\mathbf{t}} + ( \mathbf{a}^{T}\bar{\mathbf{t}\mathbf{1}^{\mathrm{T}}}- \mathbf{a}^{T}\bar{\mathbf{t}\mathbf{1}^{\mathrm{T}}}) ^\mathrm{T} \hat{\mathbf{X}^{\dagger}} ^\mathrm{T} (\mathbf{x} ^ \star - \bar{\mathbf{x}})
\\&=\mathbf{a}^{T}\bar{\mathbf{t}}
\\&=-b
\end{aligned}

より示された。

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2