ラビットチャレンジのE資格講座、いよいよディープラーニングに入ります。
日本ディープラーニング協会 E資格 JDLA認定プログラム受講記録(その1)
日本ディープラーニング協会 E資格 JDLA認定プログラム受講記録(その2)
日本ディープラーニング協会 E資格 JDLA認定プログラム受講記録(その4)
日本ディープラーニング協会 E資格 JDLA認定プログラム受講記録(その5)
日本ディープラーニング協会 E資格 JDLA認定プログラム受講記録(その6)
ディープラーニングは更にDay1~Day4にわかれていて、Day1は以下の5つのセクションからなります。セクションの構成は以下の通り。
Section1:入力層~中間層
Section2:活性化関数
Section3:出力層
Section4:勾配降下法
Section5:誤差逆伝播法
#Section1:入力層~中間層
最初の中間層への総入力$u$は、
u = W\boldsymbol{x}+b\\
$W$:重みのベクトル
$\boldsymbol{x}$:入力値のベクトル
$b$:バイアス
順伝播の実装演習
http://espj.web.fc2.com/1_1_forward_propagation-Day1-DN06.html
http://espj.web.fc2.com/1_1_forward_propagation-Day1-DN08.html
#Section2:活性化関数
- 次の層への出力の大きさを決める非線形の関数
- 入力値によって次の層へのON/OFFや強弱を定める
####中間層用
-
ステップ関数
- パーセプトロンで使われた。ディープラーニングでは使われない。
- ON/OFFのみ。強弱が伝えられない。
f\left( x\right) =\begin{cases}1 & (x \geqq 0) \\\\ 0 & (x \leq 0)\end{cases}
-
シグモイド(ロジスティック)関数
- 強弱が伝えられるようになった。
- 予想ニューラルネットワーク普及のきっかけとなった。
- 勾配消失問題があった。
f(u) = \frac{1}{1+e^{-u}}\\
-
ReLU関数
- 勾配消失問題を回避しスパース化に貢献
- 現在、最も使われている
f\left( x\right) =\begin{cases}x & (x \geqq 0) \\\\ 0 & (x \leq 0)\end{cases}
出力層用活性化関数は次セクションで。
#Section3:出力層
####出⼒層の役割
中間層までは人が理解できない数値だが出力値には意味がある。
例えば、犬、猫、ネズミの分類問題ならこんな感じ。
正解値:犬・・・1 猫・・・0 ネズミ・・・0
予測値:犬・・・0.82 猫・・・0.07 ネズミ・・・0.11 ← 犬の確率が82%
####誤差関数
以下は二乗誤差(分類では交差エントロピーを使う)。
E_{n}(W)=\dfrac {1}{2}\sum ^{J}_{j=1}\left( y_{j}-d_{j}\right) ^{2}=\dfrac {1}{2}\left\| y-d\right\| ^{2}\\
####出力層の活性化関数
中間層では信号の強弱を調整したが、出力層では信号の大きさ(比率)は変えない。
分類問題なら確率に変換(各値:0~1、総和:1)
- ソフトマックス関数
f(i,u) = \frac{e^{u_{i}}}{\sum_{k=1}^{K}e^{u_{k}}}\\
- 恒等関数
f(u) = u\\
- シグモイド(ロジスティック)関数
f(u)=\frac{1}{1+e^{-u}}\\
回帰 | 二値分類 | クラス分類 | |
---|---|---|---|
活性化関数 | 恒等関数 | シグモイド関数 | ソフトマックス関数 |
誤差関数 | 二乗誤差 | 交差エントロピー | 交差エントロピー |
#Section4:勾配降下法
- 勾配降下法
W^{t+1} = W^{t} - \varepsilon \nabla E\\
\\
\varepsilon :学習率 \nabla E = \frac{\partial{E}}{\partial{W}}
これを重みとバイアスに対して何度も繰り返す。繰り返しの1回をエポックと呼ぶ。
#####学習率の問題
学習率が大きすぎると収束しない(発散する)。
学習率が小さすぎると収束まで時間が掛かりすぎたり、局所的極小解から抜け出せなかったりする。
学習率の問題を改善する各種アルゴリズムには以下のようなものがある。
- Momentum
- AdaGrad
- Adadelta
- Adam
確率的勾配降下法(SGD)
ランダムに選択したサンプルで誤差を計算する。
メリット
-
計算コスト削減
-
局所極小解から抜け出しやすい
-
オンライン学習ができる
-
ミニバッチ勾配降下法
ランダムに分割したデータの集合(ミニバッチ$D_{t}$)に属するサンプル対して誤差を計算し平均を取る。
<メリット>
確率的勾配降下法のメリットを損なわず、計算コストを削減できる。
#Section5:誤差逆伝播法
誤差勾配の計算は、数値計算(微小に値をずらしていって近似的に計算する方法)も可能だが、計算コストが高い。
誤差逆伝播法では、出力層側から前の層に向かってパラメータの微分値を解析的に計算する。
実装上のテクニックとして、出力層の活性化関数と誤差関数の組み合わせ(Sigmoidと交差エントロピー、など)で複合導関数を用意しておくとよい。
####演習問題
確率的勾配降下法で、活性化関数がReLUとSigmoid、入力値が0~1と-5~5のそれぞれの場合について試す演習。
上の2つからReLUの方がSigmoidより誤差が小さいことがわかる。
途中から数値がNaNになって計算できていない。
Overflowが発生し誤差も減っていない。
#確認問題
以下は、ビデオの途中に出てくる確認テスト。
Q1. ディープラーニングは、結局何をやろうとしているか2⾏以内で述べよ。また、次の中のどの値の最適化が最終⽬的か。全て選べ。
①⼊⼒値[X] ②出⼒値[Y] ③重み[W] ④バイアス[b] ⑤総⼊⼒[u] ⑥中間層⼊⼒[ z] ⑦学習率[ρ]
A1. 誤差を最小化するパラメータを発見すること。③、④
前者はちょっと漠然とした問題で、考えられる幅が広いので、とりあえず先生の解答を書いておきました。学習の計算が行う直接的な目的を解答としたようです。最終的な目的は未知の入力データに対して十分正確な出力を行うモデルを構築することで、そのためにはモデルの選択、ハイパーパラメータの選択など、人がやることも含めて、とらえ方しだいで色んな解答が考えられると思います。
Q2. 次のネットワークを紙にかけ。
⼊⼒層︓2ノード1層
中間層︓3ノード2層
出⼒層︓1ノード1層
A2. 下図の通り。
A3. 下図の通り。
動物分類の実例は割愛していますが、上図のように7種の入力値がありました。重み、バイアスの値については記述なし。
Q4. 以下の数式をPythonで書け
\begin{align}
u &= w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+w_{4}x_{4}+b\\
&=W\boldsymbol{x}+b
\end{align}
A4. 自分の結果は以下の通り
先生の解答は、$u1 = np.dot(x, W1) + b1$
私は行列を仮定して転置しましたが、正解は入力$x$、重み$W1$はベクトルを仮定しているようで転置していませんでした。
Q.5 1-1のファイルから中間層の出⼒を定義しているソースを抜き出せ
ファイルは載せられませんが、順伝播のソースが与えられていて、そこから該当の箇所を抜き出す問題です。
A5. 自分の結果は以下の通り
コメントにそのままあるので間違いようがないですが、総入力に活性化関数を掛けた部分になります。
なお、ここでは活性化関数にRelu関数を用いています。$functions.py$に色々な関数の実装があります。このコースは、サンプルソースが豊富で、素のPython、Numpyでの実装はとても参考になります。可視化の例も多いです。
Q6. 線形と⾮線形の違いを図にかいて簡易に説明せよ。
A6. 平面で言えば、線形は直線、非線形はその他。3次元で言えば、線形は平面、非線形はその他。下図はその例。
Q7. 配布されたソースコードより該当する箇所を抜き出せ。
全結合NN - 単層・複数ノード
A7. 下図の通り。今回はSigmoid関数になっています。
Q8-1. なぜ、引き算でなく⼆乗するか述べよ
Q8-2. 下式の1/2はどういう意味を持つか述べよ
E_{n}(W)=\dfrac {1}{2}\sum ^{J}_{j=1}\left( y_{j}-d_{j}\right) ^{2}=\dfrac {1}{2}\left\| y-d\right\| ^{2}\\
A8-1. 正負が打ち消しあわないように。絶対値の和でもいいが微分出来るよう二乗和とした。
A8-2. 微分したときに係数が1となるよう調整するため。本質的な意味はない。
Q9. ①~③の数式に該当するソースコードを⽰し、⼀⾏づつ処理の説明をせよ。
A9. 下図の通り。
②、③はそれぞれ、$e^{x} → np.exp(x)$、$\sum{x} → np.sum(x)$とNumpyの関数で置き換えたもの。
値は全て$e^{x}$からなっているので正の数であり、②は③の一部なので0<①<1となり確率としてとらえることができる。
オーバーフロー対策は大きい値の影響が大き過ぎるのを防ぐため、全ての値が0以下になるように調整している。
またif文の中は行列対応で必要な転置を行っている。
Q10. ①~②の数式に該当するソースコードを⽰し、⼀⾏づつ処理の説明をせよ。
A10. 下図の通り
入力がベクトルで入ってきたときは1XNの行列に直しています。
$\sum → np.sum()、\log → np.log()$
$np.log(y[np.arange(batch_size), d]$は、y[行の指定、列の指定]なので、この場合は正解ラベルのインデックス値の列の全部の行についてlogをとっていることになる。1e-7を加えているのは分子が0にならないようにするための実装上の工夫。
Kerasとかを使うとき、教師データがOne-hotベクトルになるかどうかで使う関数が違ってきたりするので要注意とのことでした。
Q11. 該当するソースコードを探してみよう。
A11. 下図の通り。
$backward()$関数で勾配を計算して、学習率$learning$を掛けたものを引いています。
Q12. オンライン学習とは何か2⾏でまとめよ
A12. 既にあるモデルの上で、データを取得しながら追加学習をしていくこと。これに対して、事前にまとまったデータで学習しておくことはバッチ学習とよぶ。
先生は、Facebookなどで新しいユーザが入ってきたら、そのユーザについて学習する、という例を挙げていました。
Q13. この数式の意味を図に書いて説明せよ(ミニバッチ勾配降下法について説明せよとのことらしい)。
Q14. 誤差逆伝播法では不要な再帰的処理を避ける事が出来る。既に⾏った計算結果を保持しているソースコードを抽出せよ。
A14. 下図の通り。
出力層で行った計算結果$delta2$を中間層の$delta1$の計算に使っています。
Q15. 2つの空欄に該当するソースコードを探せ
活性化関数は恒等写像なので、$\frac{\partial{y}}{\partial{u}} = 1$。したがって、2番目の式は最初の式と同じ$delta2$
$\frac{\partial{u}}{\partial{w_{ji}^{(2)}}} = z1$なので、2番目の式は$z1$と$delta2$の内積になる。