Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net 要約
読んだ論文
Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net
Xingang Pan • Ping Luo • Jianping Shi • Xiaoou Tang
https://arxiv.org/abs/1807.09441v2
上記の論文を読んだので簡単にまとめます.ECCV2018で発表されている論文です.
3行でまとめる
- 既存のモデル構造は,単一ドメイン単一タスクのパフォーマンス向上に向け設計されている(一般化されていない).
- 対して提案手法(IBN-Net)は,特定のドメイン(e.g. Cityscapes)でのモデリング能力を向上させるだけでなく,別ドメイン(e.g. GTA5)での一般化能力もFine-tuningなしに向上させる.
- ResNet等の既存手法と併用できる手法として,IN(Instance Normalization)とBN(Batch Normalization)を高度に統合した手法を提案する.
提案手法
BN (Batch Normalization) 1
Batch NormalizationはIoffeらにより2015年に発表された手法で,現在主流のCNNモデルにはたいてい使用されているテクニックです.簡単に言えばミニバッチ単位で正規化しようというそれだけのことです.内部共変量シフトを防ぎ,学数の収束高速化と過学習防止につながるとか.詳細はこちらの記事でも触れられていますので割愛します.
IN (Instance Normalization) 23
Instance NormalizationはBNに対して,インスタンスごとに正規化を行うというそれだけのことです.なお,最近では,Layer Normalization,Group Normalizationなども提案されていて,解説記事もありますので紹介しておきます.
BNとの違いの一つとして,BNは訓練時と推論時に異なる変換を行うが,INは同じ変換を行うということである.
提案モデル
Fig.3.が提案するIN導入モデルである.ここで,IN導入時には2点に注意する.一つはDeepな層でのコンテンツ間の差分をなくさないように,CNN最後ではINを導入しないこと.もう一つは,BNの機能の一部を保持することである.(原文意訳,話半分くらいにしかわからない.)
Fig.3(a)はベーシックなResNetのResidual Blockである.(b)はIN導入手法1つ目で,最初のConv後にINを行うチャネルと,BNを行うチャネルに半々で分かれる様子.また,別の導入方法が(c)である.
その他にもFig.4.のように様々なINの導入方法を比較検証している.(図中のidentityがどのような手法をとるのかは論文中からは読み解けなかったが,スキップコネクションを経由してきた情報(x)はそのまま通し,Convを通ってきた情報はINするという解釈をしている(違っていたら教えていただきたい).)
評価実験
色々と実験を行っていたようだが,特に興味深い結果は上図の通り.CityscapesとGTA5データセットを用いて評価しており,片方で訓練して,両方で評価した場合の精度を検証している.
結果を見て分かる通り,訓練時と推論時が同一ドメインの時に精度向上しているのみではなく,ドメインが異なるときにも精度が向上している.(よく考えたら表現力が上がっただけという話しにも見えてきた.)
まとめ
- BNとINを組み合わせた手法によって表現力が向上する手法を提案した.
- 本手法は従来のモデル構造にも流用できるため,色々応用の幅が広そうである.
- 一方Group Normalization等の手法も出てきているので,そちらも見ていきたい.
所管
ざっくり読みですが2時間弱くらいで読了です.やっぱり一日にこのくらいの時間を掛けるのは負担が大きいですね.毎日,やるの辛いなと思いつつ,新しい知識が増えていくのは楽しみでもあり,複雑な感情の中,いつも記事を書いています.
-
Ioffe, Sergey and Szegedy, Christian. Batch normalization: Accelerating deep network training byreducing internal covariate shift.arXiv preprint arXiv:1502.03167, 2015. ↩
-
Ulyanov, D., Vedaldi, A., Lempitsky, V.: Improved texture networks: Maximiz-ing quality and diversity in feed-forward stylization and texture synthesis. CVPR(2017) ↩
-
Ulyanov, D., Vedaldi, A., Lempitsky, V.: Instance normal-ization: The missing ingredient for fast stylization.arXivpreprint arXiv:1607.08022, 2016. ↩