注意:『深層学習 (機械学習プロフェッショナルシリーズ)』
を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。
#第1章 はじめに
特になし
#第2章 順伝播型ネットワークの学習
2.1 ユニットの出力
特になし
2.2 活性化関数
- p10 開区間、閉区間
() は開区間 \\
[] は閉区間
開区間はその値は含まない。閉区間はその値を含む。
(-1, 1)は -1, 1 は含まない。[-1, 1]は -1, 1 を含む。
2.3 多層ネットワーク
- p14 恒等演算子
\equiv
は恒等演算子。単なる「等しい」ではなく、左辺と右辺が常に等しいという意味。
2.4 出力層の設計と誤差関数
- p15
\approx:ほぼ等しい。
≒は日本でのみ通用するとのこと。
c.f. Wikipedia:数学記号の表
- p16 ノルム
\|\| はノルム \\
\|\mathbf{d}-\mathbf{y}(\mathbf{x};\mathbf{w})\|^2 = \sqrt{(d_1-y_1)^2+(d_2-y_2)^2+...+(d_n-y_n)^2} \\
ノルムは距離を表す。特に指定のないときはユークリッド距離。
- p17 Π, (2.8)
\Pi_{n=1}^N{p(d_n|\mathbf{x}_n;\mathbf{w})}
Σは足し算ですが、これは掛け算。n=1, 2, ..., Nについて、
p(d_1|x_1;\mathbf{w}) \times p(d_2|x_2;\mathbf{w}) \times ... \times p(d_N|x_N;\mathbf{w})
Σは高校2年の基礎解析(古くてごめんなさい、今なら数ⅡBか)に出てきたけどΠは知らないうちに出てきた気がする。
\begin{align}
E(\mathbf{w})&=-log{L(\mathbf{w})} \\
&=-log[\Pi_{n=1}^N \{y(\mathbf{x_n};\mathbf{w})\}^{d_n} \{1-y(\mathbf{x}_n;\mathbf{w})\}^{1-d_n}] \\
&=-\sum_{n=1}^N[d_n\log{y(\mathbf{x}_n;\mathbf{w})+(1-d_n)\log{\{1-y(\mathbf{x}_n;\mathbf{w})}\}}] (2.8)
\end{align}
- p19 行列とベクトルの転置
転置行列の記号は本によってまちまちなので、念のため。以下はすべて同じ転置行列の記号です。
\mathbf{A}^{\top}, \mathbf{A}^\mathrm{T}, {}^t\!\mathbf{A}
転置とは行と列を反転させることであり、ベクトルの場合は縦ベクトルが横ベクトルとなる。
\mathbf{A} = \left(
\begin{array}{c}
a_1 \\
a_2 \\
\vdots \\
a_n
\end{array}
\right) \\
\mathbf{A}^{\mathrm{T}} = \left(
\begin{array}{c}
a_1, a_2, \dots, a_n
\end{array}
\right)
- p20
クラスがC_1, C_2, C_3, ..., C_KのK個あり、 \\
(2.7)よりそれぞれのクラス確率 p(C_k|\mathbf{x}) の積として表わされるので \\
p(\mathbf{d}|\mathbf{x})=\Pi_{k=1}^K{p(C_k|\mathbf{x})^{d_k}}
ここで、
L(\mathbf{w})=\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}
の対数をとり、符号を反転させるから
\begin{align}
\log{ab}&=\log{a}+\log{b} \\
\log{c^d}&=d\log{c}
\end{align}
を用いて
\begin{align}
-\log{L}&=-\log{[\Pi_{n=1}^{N}{\Pi_{k=1}^{K}{(y_k(\mathbf{x};\mathbf{w}))^{d_{nk}}}}]} \\
E(\mathbf{w})&=-\sum_{n=1}^{N}{\sum_{k=1}^{K}{d_{nk}\log{y_k(\mathbf{x};\mathbf{w})}}}
\end{align}