More than 5 years have passed since last update.

dying ReLU について学ぶ (その3) Batch Normalization

Last updated at 2017-06-06Posted at 2017-05-31

dying ReLU の発生が Batch Normarization を用いるとどう変わるかが気になり調査しました。結果をここにまとめます。参考になれば幸いです。

「dying ReLU について学ぶ」　と　「dying ReLU について学ぶ(その２)」の続きです。
「Batch Normalization の理解」も参考になれば幸いです。
以下、本文中では Batch Normalization を BN と略します。

BNありで MiniBatchSize を変化させた場合

NNの構成と測定内容

測定結果

グラフ上側は横軸がepoch数、縦軸が正解率
グラフ下側は横軸がepoch数、縦軸はdying ReLU発生数
乱数初期値は前回同様 20170523 固定。

dying ReLU 発生数

MiniBatchSize がいずれの場合でも発生しなかった。

正解率

MiniBatchSize 10 が他と比べ 1～1.5%程正解率が低い。
　BN で正規化するには、MiniBatchSize 10 は少なく、正規化が機能しなく、正解率を下げてると解釈してます。

dW 変化動画

画像は四角一つが１パーセプトロンの重みの変化（dW）を示してます。
パーセプトロンの四角は、一辺が28ピクセルの計784（＝MNIST）
各パーセプトロン内の max～min を輝度255～0 と変換し表示してます。
変換式
　　$xはdwの各値$
　　$yは変換後の輝度値$
　　$iは1～784$

y_i = \frac{x_i - min}{max-min+ 0.0001} × 255

0.0001 は0除算防止。　
max-min が 0.0255未満になると、max値でも輝度255にならないが、max-minが小さい事が見た目でわかるのでそれはそれで。
動画容量の都合で、100epochまでの尺がなく、60epoch まで位しかありません...。

miniBatchSiza 100にて BN の有無での比較

BN あり動画

BN MiniBatchSize 100 pic.twitter.com/kH3WU7LIzO
— t-tkd3a (@t_tkd3a) 2017年5月31日

どのパーセプトロンのも、まんべんなく変化している。 = dWが存在 = 重みが変化している。
　（真っ黒なまま変化なしのパーセプトロンが発生してない）
背景部分(文字部分でない場所）が中間値のグレーになっている。

BN なし動画

MNIST DW 可視化 100epoch pic.twitter.com/Guy62oA3lH
— t-tkd3a (@t_tkd3a) 2017年5月24日

BNなしでは、背景部分は白(最大値) または黒(最小値) が目立つ。
Weight に白(最大値) または黒(最小値) での　更新が続くと、初期値によっては、ReLUが反応しなくなる……のかな。

BN あり正解率推移グラフ

BN なし正解率推移グラフ

BNなしは学習時に正解率が100％に張りつくのが目立つ。
BNありは学習時に100枚中１～２枚の誤判定が目立つ。
その影響か、BNありは、テスト時の正解率も、「BNなし」よりも低くなってる。
入力画像の使用順は、epoch毎にシャッフルしているのも要因の一つと想像。
　「BNなし」の時は、シャッフル済みでも、すでに覚えていて順番関係なく、判別できる……と想像。
　「BNあり」では、シャッフルによってMiniBatch内の画像の組み合わせが変わると、平均・分散が変わり、出力値も変動するため、学習データを覚えきるには至らなく、学習データでも誤る……と想像。

以下の MiniBatchSize 500,200,50,10 は BN のみです。

MiniBatchSize 500

BN MiniBatchSize 500 pic.twitter.com/zFyRVITQPv
— t-tkd3a (@t_tkd3a) 2017年5月31日

MiniBatchSize 200

BN MiniBatchSize 200 pic.twitter.com/CV84Up9QVj
— t-tkd3a (@t_tkd3a) 2017年5月31日

MiniBatchSize 50

BN MiniBatchSize 50 pic.twitter.com/JOICNYkZps
— t-tkd3a (@t_tkd3a) 2017年5月31日

MiniBatchSize 10

BN MiniBatchSize 10 pic.twitter.com/LMNTGJouk2
— t-tkd3a (@t_tkd3a) 2017年5月31日

MiniBatchSize 10 にても、まんべんなくｄWが伝達さてきているように見える。

グラフが真っ青...。　MiniBatchSize 10 では学習時に１枚を誤ると正解率90% ですものね...。

BN と LeakyReLU を併用した場合

NNの構成と測定内容

測定結果

20 epoch 以降では、0.001 0.01 0.18 0.5 のどれも正解率はほぼ同じように見える。
dying ReLUは発生していない。
先の ReLU の場合と比べても、正解率はほぼ同じように見える。

dW 変化動画

Leaky ReLU 負側傾き 0.001 BNの有無で比較

BN あり動画

BN LeakyReLU 0.001 pic.twitter.com/mgzu2otBsq
— t-tkd3a (@t_tkd3a) 2017年5月31日

BN なし動画

K:20170523 mb:100 LeakyReLU:0.01 pic.twitter.com/uJaSY5D5HH
— t-tkd3a (@t_tkd3a) 2017年5月27日

BN なしでは、dying ReLU判定とはなってないが、真っ黒のまま無反応になっているパーセプトロンが存在するように見える。
BN ありでは、上記のようなパーセプトロンは発生していないように見える。

BN ありグラフ

BN なしグラフ

ReLUと同様に、LeakyReLUでも、BN なしの方が、正解率が高い。

Leaky ReLU 負側傾き 0.01

BN LeakyReLU 0.01 pic.twitter.com/Jxlg4ZzRge
— t-tkd3a (@t_tkd3a) 2017年5月31日

Leaky ReLU 負側傾き 0.18

BN LeakyReLU 0.18 pic.twitter.com/vKAl7lzzJZ
— t-tkd3a (@t_tkd3a) 2017年5月31日

Leaky ReLU 負側傾き 0.5

BN LeakyReLU 0.5 pic.twitter.com/7CEpvvdFB2
— t-tkd3a (@t_tkd3a) 2017年5月31日

考察

dyingReLU よりも BNの効果を見た感あるけども、これはこれで。
MNISTでは隠れ層1のシンプルなNNでも、98％程の正解率がでている。残りの２％の誤る要因は、BNを入れる事で解消できる性質のものではなさそう。
今回は、Adamを用いたが、SGDでの挙動もみてみたくなってきた。
BNの効果は、CIFAR-10, CIFAR-100 で CNNを用いてのもう少し深いネットワークで見てみます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

dying ReLU について学ぶ (その3) Batch Normalization

BNありで MiniBatchSize を変化させた場合

NNの構成 と 測定内容

測定結果

dying ReLU 発生数

正解率

dW 変化動画

miniBatchSiza 100にて BN の有無での比較

BN あり 動画

BN なし 動画

BN あり 正解率 推移グラフ

BN なし 正解率 推移グラフ

MiniBatchSize 500

MiniBatchSize 200

MiniBatchSize 50

MiniBatchSize 10

BN と LeakyReLU を併用した場合

NNの構成 と 測定内容

測定結果

dW 変化動画

Leaky ReLU 負側傾き 0.001 BNの有無で比較

BN あり 動画

BN なし 動画

BN あり グラフ

BN なし グラフ

Leaky ReLU 負側傾き 0.01

Leaky ReLU 負側傾き 0.18

Leaky ReLU 負側傾き 0.5

考察

NNの構成と測定内容

BN あり動画

BN なし動画

BN あり正解率推移グラフ

BN なし正解率推移グラフ

NNの構成と測定内容

BN あり動画

BN なし動画

BN ありグラフ

BN なしグラフ