注意:『深層学習 (機械学習プロフェッショナルシリーズ)』
を読むにあたって、自分が読みたいな、こんな記事があったら参考になるな、という基準で書いております。私は機械学習も数学も専門家ではないので誤っている箇所も多々あるかと思いますが参考となると幸いです。
第3章 確率的勾配降下法
3.1 勾配降下法
- p24 argmin
argmin_\mathbf{w}{E(\mathbf{w})} \\
はE(\mathbf{w})を最小にする\mathbf{w}の集合を示す関数。
例えば、
x=argmin_x{(x-2)^2}
であれば、x=2のとき最小になるのでx=2となる。ちなみに
min{(x-2)^2}
であれば、(実数の範囲では)0。
- p24 「E(w)は一般的に凸関数ではなく、大域的な最小解を直接得るのは通常、不可能です」
凸関数であれば局所的な最小値が大域的な最小値と一致するので、最小値を求めるような最適化問題が簡単になる。c.f. Wikipedia:凸最適化
- p24 ∇、∂
\nabla=(\frac{\partial{}}{\partial{x_1}}, \frac{\partial{}}{\partial{x_2}}, \frac{\partial{}}{\partial{x_3}}, ..., \frac{\partial{}}{\partial{x_n}}) \\
\nabla はナブラと呼び、複数の変数がある場合それぞれの変数で偏微分を行う。 \\
\partial はラウンドディーと呼び、偏微分を行う。偏微分とは、対象となる変数以外を定数とみなして、対象となる変数のみで微分を行うこと。
例えば(x, y)座標系であれば、
\nabla=(\frac{\partial{}}{\partial{x}},\frac{\partial{}}{\partial{y}} )
また、
f(x, y)=x^2y
のとき、
\frac{\partial{f}}{\partial{x}}=2xy \\
\frac{\partial{f}}{\partial{y}}=x^2
3.2 確率的勾配降下法
特になし
3.3 「ミニバッチ」の利用
- p27
n\in D_t \\
は、「nはD_tに含まれる」あるいは、「D_tはnを要素として含む」である。
3.4 汎化性能と過適合
特になし
3.5 過適合の緩和
特になし
3.6 学習のトリック
- p38
\begin{align}
\Delta{\mathbf{w}^{(t-1)}}&\equiv\mathbf{w}^{(t)}-\mathbf{w}^{(t-1)} \\
(3.3)より \\
\mathbf{w}^{(t+1)}-\mathbf{w}^{(t)}&=-\epsilon\Delta{E_t}+\mu\nabla{\mathbf{w}^{(t-1)}} \\
&=\Delta{\mathbf{w}^{(t+1)}} \\
だからp38の式は \\
\Delta\mathbf{w}^{(t)}&=\mu\Delta{\mathbf{w}^{(t-1)}}-\epsilon\nabla{E_t} \\
\end{align}