問題
以下の式の結果を確かめよ。
\begin{align*}
\frac{\partial \tilde{E}}{\partial \sigma_{j}}=\lambda\sum_{i} \gamma_{j}\left(w_{i}\right)\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right)
\tag{5.143}
\end{align*}
## 方針
(5.143)は、ニューラルネットワークにおいて、重みをグループに分類し、同じグループの重みについては似たような値を取るように学習する、ソフト重み共有についての議論の中で出てきます。
そして、(5.143)は、ソフト重み共有考えた際の全体の誤差関数 $\tilde{E}$ の微分について考えています。
本設問は、演習問題(5.29)および(5.30)と関連があります。ソフト重み共有を用いた学習では、重みのグループ分け、各グループの重みの平均値、そして各グループの重みの広がり具合(分散)が、全て学習過程の一部として学習されます。
全体の誤差関数 $\tilde{E}$ に対して、演習問題(5.29)は重みに関する微分、(5.30)は平均に関する微分、そして本設問は分散に関する微分を考えています。
なお、本文中で定義されている通り、以下の式に基づいて題意の式の導出を行うことに注意します。
```math
\begin{align*}
\widetilde{E}(\mathbf{w})=E(\mathbf{w})+\lambda \Omega(\mathbf{w})
\tag{5.139}
\end{align*}
\begin{align*}
\Omega(\mathbf{w})=-\sum_{i} \ln \left(\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)\right)
\tag{5.138}
\end{align*}
\begin{align*}
\gamma_{j}(w)=\frac{\pi_{j} \mathcal{N}\left(w \mid \mu_{j}, \sigma_{j}^{2}\right)}{\sum_{k} \pi_{k} \mathcal{N}\left(w \mid \mu_{k}, \sigma_{k}^{2}\right)}
\tag{5.140}
\end{align*}
*なお、証明すべき式が教科書の日本語版と英語版で異なっているようです( $\lambda$ の有無)。本解答では、英語版の式(5.143)について証明することにします。
解答
ガウス分布の式は
\begin{align*}
N\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp\{ -\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\}
\end{align*}
よって、分散に関する微分は、
\begin{align*}
\frac{\partial \Omega}{\partial \sigma_{j}} = -\sum_{i} \frac{\left.\pi_{j} \{-\frac{1}{\sigma_{j}}+\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right\} N\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}{\sum_{i} \pi_{j} N\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}
\end{align*}
よって、(5.140)より、
\begin{align*}
\left.\frac{\partial \Omega}{\partial \sigma_{j}}=\sum_{i} \gamma_{j}\left(w_{i}\right) \{ \frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right\}
\end{align*}
また、$ \frac{\partial E}{\partial \sigma_{j}}=0 $ より、(5.143)を得る。