More than 3 years have passed since last update.

深層学習Day2_学習レポート

Last updated at 2020-10-06Posted at 2020-07-30

0.勾配消失法について

■演習・sigmoid-gauss

・ReLU - gauss

・sigmoid - Xavier

・ReLU - He

・モメンタム　　局所的最適解にはならず、大域的最適解となる。　　谷間についてから最も低い位置(最適値)にいくまでの時間が早い。　　・AdaGrad 　　勾配の緩やかな斜面に対して、最適値に近づける。

・RMSProp
　　局所的最適解にはならず、大域的最適解となる。
　　ハイパーパラメータの調整が必要な場合が少ない。

・Adam
　　モメンタムおよびRMSPropのメリットを孕んだアルゴリズム。

■演習
・SGD

・Momentum

・MomentumをもとにAdaGradを作成

・RSMprop

・Adam

・正則化
　　ネットワークの自由度(層数、ノード数、パラメータの値etc...)を
　　制約すること
　　→正則化手法を利用して過学習を抑制する

・正則化手法
　　★L1正則化、L2正則化
　　★ドロップアウト

・Weight decay(荷重減衰)
　過学習の原因
　　重みが大きい値をとることで、過学習が発生することがある。
　
　過学習の解決策
　　誤差に対して、正則化項を加算することで、重みを抑制する。

・L1正則化(ラッソ推定)
　　L1正則化は余分な説明変数を省くことを目的とした手法
　　次元圧縮のために用いられる
　
・L2正則化(Ridge推定)
　　L2正則化はモデルの過学習を防ぐことで精度を高めるための手法
　　L1正則化を使ったモデルよりも予測精度が高い

・ドロップアウト
　ランダムにノードを削除して学習させる手法
　データ量を変化させずに、異なるモデルを学習させる

■演習
・過学習

・L1正規化実行結果

・L2正規化実行結果

・ドロップアウト

・ドロップアウト+L1

・畳み込み層
　　畳み込み層では、画像の場合、縦、横、チャンネルの3次元のデータを
　　そのまま学習し、s次に伝えることができる。
　　→3次元の空間情報も学習できるような層

・パディング
　　出力サイズを調整するため、畳み込み層の処理を行う前に、
　　入力データの周囲に固定のデータを埋めること。(0を用いることが多い)

・ストライド
　　フィルターを適用する間隔。ストライドを大きくすると出力サイズは小さくなる。

・チャンネル
　　複数のフィルタを組み合わせて判別することで識別性能を向上させる。

・プーリング層
　　対象の解像度を下げるために使われる。

■演習
単一畳み込みネットワーク(simple convolution network class)

多重畳み込みネットワーク(double convolution network class)

・AlexNet 　2012年にトロント大学のチームが開発したネットワークである。　高い認識能力を誇るが、学習時にチューニングすべきパラメータ数も多く、　実装には高いスペックをもつハードウェアが必要となる。

・LeNet
　1998年に考案された初の畳み込みネットワーク。層が浅く単純であるが、
　MNISTの手書き文字画像では99％以上の精度を出せる。

・VGG
　2014年にオックスフォード大学のチームが開発したネットワークである。
　VGGでは、局所受容野を3×3と小さくする代わりに、
　畳み込み層を増加させる方法を採用している。
　構成する層の数に応じて、VGG-11やVGG-16などと呼ばれることが多い。