深層学習(前編1)の復習
勾配消失問題・・誤差逆伝播法で下位層に進んでいくと、勾配が緩やかになっていく。
勾配が緩やかになるということは、勾配降下法でのパラメータ更新が
ほとんど変わらないことになってしまう。それにより、訓練データが
最適解に収束できなくなってしまう。
(可視化することで勾配消失が確認できるので可視化で確認することも大事。)
シグモイド関数・・0~1を緩やかに変化する関数で、ステップ関数ではON/OFFのみだったが、
ON/OFFと信号の強弱を伝えることができる。
デメリット:大きな値でも変化が微小のため、勾配消失問題を引き起こす場合がある。
確認テスト(2-2)
シグモイド関数を微分したとき、入力値が0のときに最大値をとる。その値として正しいものを選べ。
シグモイド関数
{f(x) = \frac{1}{1+e^{-x}}}
微分すると、
{f'(x) = (1 - f(x))f(x)} となる。
勾配消失の解決法
活性化関数の選択、重みの初期値設定、バッチ正規化 などがある。
・活性化関数の選択
ReLU関数:勾配消失問題の回避とスパース化に貢献する。
・重みの初期値
Xavierを用いる方法。Xavierの初期値設定する際の活性化関数は、
・ReLU関数 ・シグモイド関数 ・双曲線正接関数
初期値の設定方法は、重みの要素を前層のノード数の平方根で除算した値
Heを用いる方法。Heの初期値を設定する際の活性化関数は、
・ReLU関数
初期値の設定方法は、重みの要素を、前層のノード数の平方根で除算した値に対し、√2を掛ける。
確認テスト(2-3)
重みの初期値を0に設定するとどのような問題が発生するのか。簡潔に述べよ。
重みを0に設定すると、すべての入力値と重みの積が0になるため、出力層にはバイアス値のみが出力
される。そのため、訓練データの更新ができなくなってしまう。
バッチ正規化
ミニバッチ単位で、入力値のデータの偏りを抑制する方法。
使いところ:活性化関数に値を渡す前後に、バッチ正規化を含んだ層を加える。
確認テスト(2-4)
一般的に考えられるバッチ正規化の効果を2点挙げよ。
・初期値にほとんど依存しない点
・過学習を抑制する
・計算の高速化(データの偏りを抑えることで計算量を削減できるため)
上記のシグモイド関数を用いた推定では、誤差逆伝播法を行うとグラフからわかるように勾配消失しており、
精度も0.1程度と低い結果となっていることがわかった。
次に、ReLU関数を用いた推定を行う。
シグモイド関数を用いた推定との差分は、コメントアウトで囲んでいる。活性化関数をReLU関数にしているのみである。
結果は、勾配消失は起きておらずしっかり誤差逆伝播できていることがわかった。
次は、重みの初期値を設定する方法で確認する。シグモイド関数にXavierで重みの初期値を設定し推定を行う。
1番初めのシグモイド関数での推定に重みの初期設定として、ガウス分布を用いたXavierを行うと、グラフからもわかるように
勾配消失が発生していないことがわかった。
次に、もう一つの重みの初期値設定であるHeを用いた推定を行う。
ReLU関数と重みの初期設定Heを用いた推定でも、勾配消失は起きていないこともわかった。
ReLU関数とHeの組み合わせでは、Heの重みの初期設定で勾配消失が起きないか判断できなかったので、
シグモイド関数とHeを用いた推定を下記に実施して、勾配消失していないか確認を行った。
上記結果のグラフより、勾配消失は起きておらず、重みの初期設定Heで勾配消失しないことを確認した。
学習率最適化手法
初期の学習率設定の指針
初めは、学習率を大きく設定し、徐々に下げていく。
→学習率最適化手法を用いる。
・モメンタム
誤差をパラメータで微分したものと学習率の積で減算した後に、現在の重みに前回の重みを
減算した値と慣性の積を微分する。
・AbaGrad
・RMSProp
・Adam
過学習
過学習:テスト誤差と訓練誤差で学習直線が乖離してしまうこと。
正則化(ネットワークの自由度を制約すること)を用いて過学習を抑制する。
ネットワークの自由度:層数、ノード数、パラメータ値など…
正則化の種類
・L1正則化
・L2正則化
・ドロップアウト
確認テスト(2-10)
機械学習で使われる線形モデルの正則化はモデルの重みを制限することで可能となる。
正則化手法の中にリッジ回帰という手法があり、その特徴として正しいものを選択しなさい。
答え(a)ハイパーパラメータを大きな値に設定するとすべての重みが限りなく0に近づく
リッジ回帰とは、正則化された線形回帰の一つで、線形回帰に学習した重みの二乗を加えたものである。
Weight decay(荷重減衰)
過学習の原因は、重みが大きい値をとることで発生する。
過学習の解決策として、正則化項を加算することで重みの値を抑制する。
ただし、重み値が大きいほど学習においては重要なパラメータであるので
過学習が起きない値範囲内で重み値をコントロールと重みの大きさにばらつきを出すことが必須である。
L1,L2正則化
誤差関数にpノルムを加える。
P=1ならL1正則化、P=2ならL2正則化と呼ぶ。
確認テスト(2-11)
L1正則化を表しているグラフはどちらかを答えよ。
右側のグラフ
L1正則化は特性上0をとる場合がある。そのためスパース推定に対応している。
ドロップアウト
正則化手法の中でも主に使用されている手法
ランダムにノードを削除して学習させる手法をドロップアウトという。
データ量を変化させずに、異なるモデルを学習
畳み込みニューラルネットワーク(CNN)
主に画像分類でよく使用される方式。
画像のみではなく音声データなどにも使用される場合がある。
CNNの流れ(例)
入力層→畳み込み層→畳み込み層→プーリング層→畳み込み層→畳み込み層→プーリング層→全結合層→出力層
畳み込み層
入力値をフィルタで乗算した出力値とバイアスを足し合わせ値を活性化関数で出力値に変換する。
畳み込み層を用いることで、画像データ縦、横、チャンネルの3次元のデータ(チャンネル:空間をつかさどるデータ)を
そのまま学習でき、次に伝えることが可能になる。
・バイアス
入力層とフィルタを乗算した値にバイアスを足す。
・パディング
入力層とフィルタの乗算結果は、入力層のサイズより小さくなってしまう。そのため固定データを増やすことで
出力値を入力層と同じ大きさにすることができる。主には0を足す0パディングを使用する。
・ストライド
入力層とフィルタの計算箇所を変更させる。
・チャンネル
空間を学習するために、縦、横、奥行などに分解したものをチャンネル数という。
全結合層だと画像データ3次元データも、1次元データとして処理されてしまう。
3次元データを学習するために畳み込み層が考案された。
im2colについて、image to columnの略。多次元データを2次元配列に変換するメソッド。
上記のinput_dataは、random.rand()で多次元配列(チャンネル数2の4×4行列)を作成。
縦、横のフィルタの大きさ3でストライド1、0パディングでim2colを実行。
im2col関数で多次元配列が2次元配列に変換される。
次にim2col関数を下記に記載する。
im2col関数は、引数に入力値、フィルタの縦、横の大きさ、ストライド数(=1)、パディング数(=0)を用いる。
input_data.shapeで配列の各大きさを格納。
out_hとout_wが出力の縦、横の大きさ
次に2次元配列を多次元配列に変換するのは、col2imで column to image
注意することとして、im2colで2次元配列に変換した配列をcol2imで多次元配列に変換することはない。
im2colとcol2imメソッドが異なるので復元はできない。
プーリング層
大きく2種類(マックスプーリングとアベレージプーリング)ある。
入力画像データの対象領域の最大値を出力する(マックスプーリング)。対象領域の平均値を出力する(アベレージプーリング)
確認テスト(2-18)
サイズ6×6の入力画像を、サイズ2×2のフィルタで畳み込んだ時の出力画像のサイズを答えよ。
なお、ストライドとパディングは1とする。
答え:7×7の画像サイズ
Jupiter演習(2-19)
マックスプーリング関数のプログラム
最新のCNN
AlexNet:5層の畳み込み層およびプーリング層など、それに続く3層の全結合層から構成される。