More than 5 years have passed since last update.

シンプルなＮＮで SeLU と eLU と ReLU を見比べてみる

Last updated at 2017-06-16Posted at 2017-06-16

先日 twitter にて SeLU がホットな話題として交わされていたので関心がわき、シンプルなNN で見てみました。
結果をここにまとめ公開します。参考になれば幸いです。

背景・経緯

深層学習の理解を深めようと、自前で実装を行ってます。
先日(2017/6 上旬) にて、twitter の TL で SeLU がホットな話題として交わされてるの見て、関心わきました。
SeLU と eLU は似てるらしい。
SeLU と eLU と ReLU とで見比べます。

eLU

Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs) (arxiv.org/abs/1511.07289)

def eLU(x):
    alpha = 1.0
    return np.where(x>=0.0, x, alpha*np.exp(x)-alpha)

SeLU

Self-Normalizing Neural Networks (arxiv.org/abs/1706.02515)

def SeLU(x):
    alpha = 1.6732632423543772848170429916717
    scale = 1.0507009873554804934193349852946
    return scale*np.where(x>=0.0, x, alpha*np.exp(x)-alpha)

$X=0$ にエッジがあるんですね。

MNIST 300epoch での比較

300 epoch までのテスト画像での正解率の推移
乱数種値は 20170523 で固定
SGD の学習率は 0.001 で固定
LeakyReLU の負側の傾きは 0.01

グラフから読み取ったこと

LeakyReLU が正解率 98.1% で健闘してます。
eLU は ReLU と同等、LeakyReLUからだいたい 0.1% 位下がる。
　負側の傾きの有無の差が 0.1%位の差と出ている様に見える。
SeLU と BN+ReLU は 97.9%位でだいたい同じ。
　（もっと際立った特徴でるかと期待してました...）

学習率を大きくした場合での比較

先日の記事シンプルなNNで学習失敗時の挙動と Batch Normalization の効果を見ると同様に、学習率が大きく学習失敗した時と、学習が進む場合で、重みとバイアスの推移を比較しました。

乱数種値は 20170523 固定
学習率２つで比較。「学習が失敗する場合」と「順調に進む場合」で比較する。
ミニバッチ600回 (1 epoche) 期間での測定。
「①学習時正解率」は、学習時の正解率。　横軸はミニバッチ回数、縦軸は正解率。グラフは上に行くほど良く正解率が高い。
「②層２ Weight」は、層２の10個のパーセプトロンへのweight(10個) の平均値の推移のグラフ。横軸はミニバッチ回数、縦軸はWeight値。振動していれば学習の進行中で、横線(振動がない)状態はdying 状態。　
「③層２ Bias」は、層２の10個のパーセプトロンへの Bias 値の推移のグラフ。横軸はミニバッチ回数、縦軸はBiasの値。
「④層１ Weight]は、層１の64個のパーセプトロン中の10個に注目し、各注目パーセプトロンへのWeight(768個)の平均値の推移のグラフ。横軸はミニバッチ回数、縦軸はWeight値。振動していれば学習の進行中で、横線(振動がない)状態はdying 状態。
「⑤層１ Bias」は、④で注目したパーセプトロンへの Bias 値の推移のグラフ。横軸はミニバッチ回数、縦軸はBiasの値。