対象とする読者
深層学習を利用するユーザ,実装するユーザ.
※研究者は含んでいません.(より高度な数学が必要になります.)
勾配
ある2変数関数を
$$f(x)=\frac{1}{2}x_1^4 - 2x_1^2x_2+4x_2^2+8x_1+8x_2$$
とします.するとf(x)の勾配は
\nabla f(x) = \begin{bmatrix}
2x_1^3-4x_1x_2+8\\
-2_1^2+x_2+8
\end{bmatrix}
一応説明すると,f(x)の$x_1$に関して偏微分したものを一行目,$x_2$に関して偏微分したものを2行目ということになります.
これは3変数や多変数においても同様です.
Hesse行列
f(x)のHesse行列とは
\nabla^2f(x) =
\begin{bmatrix}
6x_1^2-4x_2&-4x_1\\
-4x_1&8
\end{bmatrix}
になります.
説明すると1行目の1列目(1,1)は1行目の$\nabla f(x)$の$x_1$に関して偏微分したもの,
(1,2)は1行目の$\nabla f(x)$を$x_2$に関して偏微分したもの
次に2行目2列目(2,1)は2行目の$\nabla f(x)$の$x_1$に関して偏微分したもの,
(2,2)は2行目の$\nabla f(x)$を$x_2$に関して偏微分した要素を持つ2行2列の行列になります.(2変数関数の場合)
$\nabla$はナブラと読みます.
更新量
$\Delta w ^{(t)}$ = $- \eta \nabla E(w^{(t)})$
ここでの$\Delta$は勾配降下法の更新量を表しています.
$\Delta$(デルタ)は他の数学では作用素を表してたりするので注意が必要です.
アダマール積
2つの任意のd次元ベクトル$v=(v_i),w=(w_i)$に対し,次でアダマール積を定義する.
$v \odot w \equiv (v_1w_1 \quad v_2w_2 \quad v_3 w_3 \quad \cdots \quad v_d w_d )^T$
ようは要素ごとの積です.
$\odot$の記号も別の意味があったりするので注意.
$T$は転置を意味しています.$\equiv$は”恒等式”を意味しています.恒に等しいという意味です.