問題
複数の目標変数を持ち、入力ベクトル $\mathbf{x}$ を固定したときの目標変数の分布が
p(\mathbf{t}|\mathbf{x}, \mathbf{w})
= \mathcal{N}
(
\mathbf{t} |
\mathbf{y}(\mathbf{x}, \mathbf{w}),
\boldsymbol{\Sigma}
)
\tag{5.192}
> という形のガウス関数であるような回帰問題を考える。ここで、$\mathbf{y}(\mathbf{x}, \mathbf{w})$ は入力ベクトル $\mathbf{x}$、重みベクトル $\mathbf{w}$ を持つニューラルネットワークの出力であり、 $\boldsymbol{\Sigma}$ は目標値の想定されたガウスノイズの共分散である。$\mathbf{x}$ と $\mathbf{t}$ の独立な観測値の集合が与えられたとき、$\boldsymbol{\Sigma}$ は固定で既知と仮定して、$\mathbf{w}$ に関する最尤推定解を見つけるための最小化すべき誤差関数を書き下せ。さらに、$\boldsymbol{\Sigma}$ もまたデータから決定すべきと仮定し、$\boldsymbol{\Sigma}$ の最尤推定解の式を書き下せ。ここでは5.2節で議論した独立な目標変数の場合と異なり、$\mathbf{w}$ と $\boldsymbol{\Sigma}$ の最適化が連結されている点に注意せよ。
# 解釈
5.2節ではまず、目標変数がスカラー $t$ である場合の誤差関数を導出し、それを拡張する形で目標変数がベクトル $\mathbf{t}$ である場合に議論を拡張した。この時、$\mathbf{t}$ の成分については独立であると仮定されていたので、
>```math
p(\mathbf{t}|\mathbf{x}, \mathbf{w})
= \mathcal{N}
(
\mathbf{t} |
\mathbf{y}(\mathbf{x}, \mathbf{w}),
\beta^{-1} \mathbf{I}
)
\tag{5.16}
のように、共分散行列は単位行列をおいていた。この問題ではさらに拡張し、$\mathbf{t}$ の共分散行列が任意の対象行列 $\boldsymbol{\Sigma}$ になった時を考える。
なお、この問題の結果として
- $\mathbf{w}$ の導出は重み付き二乗誤差関数の最小化で得られる
- $\boldsymbol{\Sigma}$ の最尤解は誤差の共分散行列である
ことが分かる。
解答
命題1
$\boldsymbol{\Sigma}$ は固定で既知と仮定して、$\mathbf{w}$ に関する最尤推定解を見つけるための最小化すべき誤差関数は以下で表される。
\sum_{n=1}^N
(\mathbf{t}_n - \mathbf{y}_n) ^ {\rm T}
\boldsymbol{\Sigma} ^ {-1}
(\mathbf{t}_n - \mathbf{y}_n)
\tag{ex5.3.1}
> ただし $\mathbf{y}_n = \mathbf{y}(\mathbf{x}_n, \mathbf{w})$ と置いた。
***証明*** 最大化すべき尤度は
```math
L =
\prod_{n=1}^N
\mathcal{N}
(
\mathbf{t}_n | \mathbf{y}_n, \boldsymbol{\Sigma}
)
\tag{ex5.3.2}
なので、対数尤度は以下のようになる。
\begin{align}
{\rm ln} L & =
\sum_{n=1}^N
{\rm ln}
\mathcal{N}
(
\mathbf{t}_n | \mathbf{y}_n, \boldsymbol{\Sigma}
) \\
& =
- \frac{N}{2} {\rm ln} |\boldsymbol{\Sigma}| -
\frac{1}{2} \sum_{n=1}^N
(\mathbf{t}_n - \mathbf{y}_n) ^ {\rm T}
\boldsymbol{\Sigma} ^ {-1}
(\mathbf{t}_n - \mathbf{y}_n) +
{\rm const.}
\tag{ex5.3.3}
\end{align}
第1項は $\mathbf{w}$ と関係がないので無視すると、誤差関数 $({\rm ex5.3.1})$ の最小化が尤度の最大化と等価であることが分かる。(証明終)
命題2
$\boldsymbol{\Sigma}$ の最尤推定解は以下で表される。
\boldsymbol{\Sigma}{\rm ML} =
\frac{1}{N} \sum{n=1}^N
(\mathbf{t}_n - \mathbf{y}_n)
(\mathbf{t}_n - \mathbf{y}_n) ^ {\rm T}
\tag{ex5.3.4}
***証明*** 対数尤度 $({\rm ex5.3.3})$ を $\boldsymbol{\Sigma}$ で偏微分すると以下のようになる。
```math
\begin{align}
\frac{\partial}{\partial \boldsymbol{\Sigma}}
{\rm ln} L & =
- \frac{N}{2}
\frac{\partial}{\partial \boldsymbol{\Sigma}}
{\rm ln} |\boldsymbol{\Sigma}| -
\frac{1}{2}
\frac{\partial}{\partial \boldsymbol{\Sigma}}
\sum_{n=1}^N
(\mathbf{t}_n - \mathbf{y}_n) ^ {\rm T}
\boldsymbol{\Sigma} ^ {-1}
(\mathbf{t}_n - \mathbf{y}_n)
\\
& =
- \frac{N}{2} \boldsymbol{\Sigma} ^ {-1} -
\frac{1}{2}
\frac{\partial}{\partial \boldsymbol{\Sigma}}
\sum_{n=1}^N
{\rm Tr}
\left\{
\boldsymbol{\Sigma} ^ {-1}
(\mathbf{t}_n - \mathbf{y}_n)
(\mathbf{t}_n - \mathbf{y}_n) ^ {\rm T}
\right\}
\\
& =
- \frac{N}{2} \boldsymbol{\Sigma} ^ {-1} -
\frac{1}{2}
\frac{\partial}{\partial \boldsymbol{\Sigma}}
{\rm Tr}
\left\{
\boldsymbol{\Sigma} ^ {-1}
\sum_{n=1}^N
(\mathbf{t}_n - \mathbf{y}_n)
(\mathbf{t}_n - \mathbf{y}_n) ^ {\rm T}
\right\}
\\
& =
- \frac{N}{2} \boldsymbol{\Sigma} ^ {-1} -
\frac{1}{2}
\boldsymbol{\Sigma} ^ {-1}
\left\{
\sum_{n=1}^N
(\mathbf{t}_n - \mathbf{y}_n)
(\mathbf{t}_n - \mathbf{y}_n) ^ {\rm T}
\right\}
\boldsymbol{\Sigma} ^ {-1}
\tag{ex5.3.5}
\end{align}
よって、これを $\mathbf{O}$ と置くと、最尤推定解 $({\rm ex5.3.4})$ が得られる。(証明終)