論文
概要
生成モデルを用いて画像ドメインのtransferを行う。
ファッションの分野において、あるアイテムの商品画像とそれをモデルさんが着た画像は大きく異なる問題に注目する(pixel level domain transfer probrem)
提案手法では、GANを用いてモデル画像から商品画像を生成している
貢献
- pixel levelでsource domainからtarget domainへの意味的な転写を行っている
- domainの関係を学習するdiscriminatorを提案する
- ファッション画像のでかいデータセットに適用している(<-実はそんなにでかくない
アプローチ
3種類のネットワーク{Converter, Real/Fake Discriminator, Domain Discriminator}を学習させる
Discriminatorの学習には生成画像、本物の画像(positive)、本物だけど異なるアイテムの画像(negative)のtripletを用いる
Converter
EncoderとDecoderの組からなる、構造はGANと同様
ただし逆伝播させるlossを工夫して、入力画像をそのまま再構成するのではなく、source domainの画像からtarget domainの画像を生成できるように学習させる(Domain transfer)
Real/Fake Discriminator
入力された画像が本物かConverterが生成した偽物かを学習する
GANと同様
Domain Discriminator
(Converterの生成画像, target domainのpositive画像, target domainのnegative画像)のうちどれかひとつとsource domainの画像をchannelについてconcatした画像を入力として、その組み合わせの関連性の有無を判別する
誤差関数
Discriminatorはそれぞれの判別誤差
Converterは2つのDiscriminatorの誤差の平均
議論
なぜDiscriminatorの判別誤差を利用するのか(MSEじゃだめなの?)
MSEの課題は2つ
- pixelのRGB値の差分がある程度小さくなると学習が止まってしまうため、生成される画像がボケる
- そもそもRMSEで仮定している誤差分布は正規分布だけど、画像のpixelは正規分布じゃない
- target domainの画像はuniqueじゃない
- 例えば、商品画像なら色んな角度から撮影されているので、MSEだと正しく学習できない
実験
optimizerの学習率など、設定は論文に細かく書かれていて、とても親切
生成画像の自然さについて、アンケートによる定性評価とRMSE,SSIMによる定量評価
結果

その他
モデルの構造とか実験設定が細かく書かれててありがたい