- Max Jaderberg Karen Simonyan Andrew Zisserman Koray Kavukcuoglu
- Deepmind, 2015年
- https://arxiv.org/pdf/1506.02025.pdf
概要
-
CNN ではmax poolingとかでshift invarianceを入れているが、回転とかは弱い。(普通Data Augmentationで入れるような)
-
Spatial Transformer と呼ぶ層をCNNの中に混ぜる。この層はtrainableである。Transformerはインスタンスごとに適切な変換を行うように学習する。どうもある種の正規化みたいなことを画像に対して行うことが期待されているようだ。
-
STはConv層の間に挟む。普通に作ると全結合になりそうでパラメータ増えそうだが、どうなっているのかな?
評価
評価はMNIST, SVHN などの文字とCUB200 という鳥類画像で行っている。
基本的には分類精度の向上で評価しているようだ。