機械学習論文読みメモ_127 #機械学習

Few-shot Autoregerssive Density Estimation
Deep autoregressive modelはImageNetをはじめとする自然画像の分布学習においてSOTAの性能を発揮してきた。
しかしながらこのモデルは多くのデータと長い学習時間を必要とする。
人間が可能なような、少ない量のデータから対象のコンセプトを学習する手法が理想とされる。
本論ではmeta-learning及びneural attentionの手法をdeep autoregressive modelと組み合わせる事で
few shot learningを可能にする手法を提案する。
PixelCNNに対して上記構造を加える事でSOTAの性能を発揮する事に成功した。

Learning Tranferable Architectures for Scalable Image Recogniton
画像分類のモデルを構築する際、多大なarchitecture engineeringが
要求される。
本論ではこのプロセスを自動化するために、対象となるデータに対して
直接architectureを学習していく方法を提案する。
この手法は対象のデータが大きい場合に問題となるが、
提案手法では、はじめに小さなデータセットを用いてarchitecture blockを
学習した上でその転移学習を行う。
特にCNNをCIFAR10の小さなデータセットに対してarchitectorを学習し
そのarchitecture blockをスタックして作成したarchitectureを用いて
ImageNetに対する学習を行う。
結果ほSOTAの性能を実現しつつ処理負荷を軽減したモデルを発見できた。

Don't Decay the Learning Rate, Increase the Batch Size
learning rateを学習が進むにつれてdecayするのは一般的である。
本論では、learning rateをdecayさせる代わりに、
バッチサイズを増やしていくことで同じ効果を発揮させることが可能なことを
示す。
この手法はSGDをはじめとして、Nestrov momentum, Adamなどの最適化手法に
対して有効である。
この手法を利用する事で同じ学習エポックで同じテスト性能を得る事が出来る。
さらにこの手法では、並列計算と組み合わせる事で大きいバッチサイズを利用した
高速な学習を実現できる。
またバッチサイズとlearning rateの相似関係を仮定して調整する事で、
さらにバッチサイズを増やし高速化を可能にした。