Weixiang Hong, Zhenzhen Wang, Ming Yang, Junsong Yuan
CVPR2018
pdf
どんなもの?
近年,学習データの拡張のための合成データ生成手法が多く提案されている.
しかし,実データと合成データのドメインの不一致という問題が起きる.
これを解決するために,GANをFCNのフレームワークに統合することによって,セマンティックセグメンテーションのためのドメイン適用手法を提案.
先行研究との差分
- 合成画像の特徴(source domain)を実画像からの特徴(target domain)のように変換するconditional GANを学習.
- 合成画像と合成画像のラベル,実画像を使用する.実画像のラベルは不要.
- 提案手法はstate-of-the-artの手法をmean IoUで12 ~ 20%上回った.
技術や手法のキモ
合成画像(source domain)と実画像(target domain)のドメインギャップを埋めるために,「合成画像をもとに,target domainから得られた特徴マップを生成するようなconditional generatorを学習」する.
discriminatorは実画像の特徴マップ($x^t$) or 合成画像からの特徴マップ($x^f$)なのか判別する.
$D$はdiscriminator branch,$T$はpixel-wise classifier branch.
最適化には以下のミニマックスを解く.
$L_t$は画像中の各ピクセルにおけるクロスエントロピー誤差の和.
どうやって有効性を検証したか
target domain(実画像)のデータセットとして
- Cityscapes dataset[10]
https://www.cityscapes-dataset.com/
source domain(合成画像)のデータセットとして
-
SYNTHIA[35]
http://synthia-dataset.net/ -
GTA[34]
https://download.visinf.tu-darmstadt.de/data/from_games/
を用いて,性能の向上を比較.
提案手法はsource domain, target domainの画像で学習し,target domainの画像でテスト.
比較手法はtarget domainの画像で学習し,target domainの画像でテストのはず.
- No adaptation (NoAdapt) : source domainの画像で学習しただけ
- FCNs in the wild (FCN Wld) : FCNの拡張版 [21]
- Curriculum learning (CL) : セマンティックセグメンテーションのドメインギャップを小さくする手法 [45]
- Cross city adaptation (CCA) : pre-trainedのnetworkをrefineする手法[9]
- ドメイン適用で大幅に(23%)性能向上(NoAdaptと比較) -> ドメイン適用が有効
- その他のstate-of-the-artとの比較でも12% ~ 20%の性能向上
以下は提案手法で異なるsource domain画像(SYNTHIA, GTA)を用いた場合の結果.
Table1, 2の比較から,GTAを用いた方が良い結果だった(これはおそらく画像枚数による,24996 vs 9400).
以下は使用する画像枚数の変化が,結果にどれだけ影響するかを検証したもの.
Fig 4(a)から
さらに,"Skip Pooling"を適用した場合とconditional generatorを省いた場合と比較.
conditional generatorへの入力をConv1~5と変えた結果とresidual blockの数を変えた結果.
- lower layerがより詳細なlow-levelの特徴を捉えていることが良い結果に繋がっている
- imageをそのまま入力してもいいが,Conv1の方が入力のサイズが小さい
入力するノイズの有無で比較.
- ノイズによりunlimited numberの訓練サンプルを作ることができる
議論はあるか
- セマンティックセグメンテーションのためのドメイン適用手法を提案
- GANベースのアプローチでconditional generatorがsource domain画像の特徴マップをtarget domain画像の特徴マップのように変換する
- state-of-the-artの手法の性能を,実際の交通シーンのデータセットにおいて上回った
次に読むべき論文
CVPR2018のGANを用いた手法いろいろ