機械学習論文読みメモ_82 #機械学習

Aggregated Residual Transformations for Deep Neural Networks, CVPR2017
新たな画像分類ネットワークを提案する。
このネットワークは同じトポロジーを持つtransformationのセットを集めたブロックを繰り返していく構造を持つ。
これは例えば通常のresnetブロックに対して、内部処理を並列に並べてそれぞれに入力、出力を行い最後に出力を凝集させる。
このようなmulti branch構造は少ないパラメータ数で実現できる。
ここで新たに並列に並べるブロック数を濃度として定義する。
濃度はネットワークの深さや幅を増やしていくよりも改善効率が良い。

R-FCN: Object Detection via Region-based Fully Convolutional Networks
物体認識のための高精度かつ効率的なregion based fully convolutional networkを提案する。
従来のFast/Faster R-CNNはregion毎に分類タスクを何度も適用するため非効率であった。
今回提案する手法は画像に対して全ての領域毎計算が共有されるようにする。
これを実現するためには、画像分類タスクで要求されるtranslation invarianceと領域分割タスクで要求されるtranslation varianceのジレンマを解決する必要がある。
提案手法では、position sensitive mapと呼ばれる、物体に対する相対的な位置関係を含めてエンコードする層をfully convolutional netの後ろへ導入する。
この層に対してROIベースのネットワークをさらに適用する事で最終的な分類までを実現できる。

Spectral Convolution Networks
周波数領域において畳み込み計算を行う事で効率的な計算を行う事が可能な事が知られている。
しかしながら、activation、pooling、dropout等を適用するためには、transformとそのinverse計算を繰り返し行う必要がある。
本論ではこれらconvolutionｍ，poolingをフーリエ、ラプラス領域において数学的に実装可能である事を示す。
具体的には、フーリエ領域におけるspectral activationの計算、またラプラス領域における畳み込み計算とactivation計算の方法を示す。
これにより、計算コストとそのcomplexityの双方を低減する事が可能になる。