機械学習論文読みメモ_162 #機械学習

Smallify: Learning Network Size while Training
様々なハードウェアやアプリケーションにDNNを適用するにあたって、
それぞれに適当なモデルサイズ、精度、予測時間を実現する事は重要である。
従来手法はそれらを異なったステージで最適化してきたため、最適な設計が
難しかった。
本論で提案する手法はそれら要素を同時に最適化可能である。
提案モデルは、学習時にニューロンレベルの枝刈りを行う事で
モデルサイズと性能を調整する。
この枝刈り手法は、さらに密な重み行列を作成するため、
計算効率も良い。

Measuring the tendency of CNNs to Learn Surface Statistical Regularities
CNNは汎化性能が高い一方でadversarial exampleには脆弱である。
この事実はCNNが高い抽象レベルの特徴を獲得出来ていない事を示唆する。
本論はCNNが主に表面的なstatistical regularityを学習している事を示す。
この事を示すために、Fourier filteringを適用する事でデータの高レベル特徴を
保ったままそれ以外の統計値を変化させたデータを作成し、学習に用いた。
結果、CNNはFourier filterで変化させた部分を学習する傾向が強い事が分かり、
特に変化させたデータで学習したモデルのテストデータに対する汎化ギャップが増加する事がわかった。
またCNNの深さを増加させてもこうした汎化ギャップを低減する効果は低い事がわかった。

Why do deep convolutional networks generalize so poorly to small image transformations?
画像に対するCNNは、画像への小さなtranslationやdeformationに対して頑健である事が仮定される。
本論では、最新のCNNモデルはそうした小さなtranslationに対して大きくその出力結果を変えてしまう事
を示す。
さらにこうした脆弱性は現実で起こりうるようなtranslationについても同様である。
またこの脆弱性はCNNをより深い構造にするほど顕著に観測される事が分かった。
この原因は最近のCNNで普及しているstrideを利用したsamplingにある。
つまりsamplingが存在する事である特定のtranslationに対してのみしかCNNは反応する事
ができなくなってしまう事が原因となっている。
また一般的に利用されるデータセットが持つbiasの影響も上記のtranslation invarianceに
対して影響を与えている。