機械学習論文読みメモ_161 #機械学習

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima
SGDで最適化を行う際、小さなバッチを用いた学習が行われるが、
このバッチサイズを大きくした場合に、SGDによる汎化性能向上効果が低減する
事が実用上分かっている。
本論ではその原因を探り、大きなバッチサイズを利用するとよりsharpな極値へ収束
しやすくなることを数値的に示した。
そして経験的にsharpな極値におけるモデルは低い汎化性能になる事が知られている。
一方で小さなバッチサイズを用いた場合には、一貫して平坦な極値へ収束し、
これは小さなバッチサイズを用いた事によるノイズ混入が原因である事がわかった。

Pooling is neither necessary nor sufficienc for appropriate deformation stability in CNNs
CNNに関する仮定の一つに、CNNは入力の小さなtranslationやdeformationに関して頑健であることが
画像認識タスクを解くに当たって重要である、という事がある。
その頑健性はCNNにpooling layerを入れ込む事で実現されてきた。
しかし最近の研究においてpooling layerの利用はされなくなってきた。
これは先程の仮定に疑問を差し込む。
本論では改めてこの仮定を検討した。
結論として以下の知見が得られた。
１．Deformation invarianceは各層毎に異なったレベルで要求される。
２．Deformation invarianceは学習を通して適応的に学習される。
３．pooling layerはそうした必要なレベルのinvarianceを獲得するにあたって不要か、不十分である。
４．学習初期において、pooling layerが導入するinvariance性、学習へ悪影響を与える。結果として学習プロセスにおいてpooling layerを影響をキャンセルさせるような学習がなされる。

Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net
3D detection, tracking, motion forecastingを同時に行う事が可能な単一のCNNモデルを提案する。
複数のタスクに関して理由付けを行う構造により、この総体的な手法はocclusionや遠距離の
スパースデータに対しても頑健性を持つ。
提案手法はLidarなどの3D sensorデータを入力とし、鳥瞰視点のデータとして時空間方向に３D convolutionsを適用する。
モデルは時間方向の情報を前段・後段どちらの層でfusionするかの違いで２つの構造を提案する。
これら２つの構造は精度と効率性の関係においてトレードオフ関係がある。