問題
ソフトマックス活性化関数
\begin{align*} p\left(\mathcal{C}_{k} | \phi\right)=y_{k}(\phi)=\frac{\exp \left(a_{k}\right)}{\sum_{j} \exp \left(a_{j}\right)} \tag{4.104} \end{align*}
の微分が、
\begin{align*} \frac{\partial y_{k}}{\partial a_{j}}=y_{k}\left(I_{k j}-y_{j}\right) \tag{4.106} \end{align*}
によって与えられることを示せ。
ここで、 $a_{k}$ は\begin{align*} a_{k}=\mathbf{w}_{k}^{\mathrm{T}} \boldsymbol{\phi} \tag{4.105} \end{align*}
によって定義される。
なお、$I_{k j}$ は単位行列の要素である。
方針
本問を通して示したいのは、最尤法を用いて、直接パラメータ $\mathbf{w}_{k}$ を決定する方法です。
そのために、全ての活性化関数 $a_{j}$ に関する $y_{k}$の微分を考える必要があります。
この微分が (4.106) で与えられることを示します。
なお、$I_{k j}$ は単位行列の成分であるため、
$I_{k j} = 1, \quad j = k $
$I_{k j} = 0, \quad j \neq k $
であることに注意します。
解答
\begin{align*}
\frac{\partial y_{k}}{\partial a_{k}}=\frac{e^{a_{k}}}{\sum_{i} e^{a_{i}}}-\left(\frac{e^{a_{k}}}{\sum_{i} e^{a_{i}}}\right)^{2}=y_{k}\left(1-y_{k}\right)
\end{align*}
\begin{align*}
\frac{\partial y_{k}}{\partial a_{j}}=-\frac{e^{a_{k}} e^{a_{j}}}{\left(\sum_{i} e^{a_{i}}\right)^{2}}=-y_{k} y_{j}, \quad j \neq k
\end{align*}
よって、題意は示された。