論文

概要

生成モデルを用いて画像ドメインのtransferを行う。

ファッションの分野において、あるアイテムの商品画像とそれをモデルさんが着た画像は大きく異なる問題に注目する（pixel level domain transfer probrem）
提案手法では、GANを用いてモデル画像から商品画像を生成している

貢献

pixel levelでsource domainからtarget domainへの意味的な転写を行っている
domainの関係を学習するdiscriminatorを提案する
ファッション画像のでかいデータセットに適用している（<-実はそんなにでかくない

アプローチ

3種類のネットワーク｛Converter， Real/Fake Discriminator， Domain Discriminator｝を学習させる
Discriminatorの学習には生成画像、本物の画像（positive）、本物だけど異なるアイテムの画像（negative）のtripletを用いる

Converter

EncoderとDecoderの組からなる、構造はGANと同様
ただし逆伝播させるlossを工夫して、入力画像をそのまま再構成するのではなく、source domainの画像からtarget domainの画像を生成できるように学習させる（Domain transfer）

Real/Fake Discriminator

入力された画像が本物かConverterが生成した偽物かを学習する
GANと同様

Domain Discriminator

（Converterの生成画像， target domainのpositive画像， target domainのnegative画像）のうちどれかひとつとsource domainの画像をchannelについてconcatした画像を入力として、その組み合わせの関連性の有無を判別する

実際に絵で見たほうが早い

誤差関数

Discriminatorはそれぞれの判別誤差
Converterは2つのDiscriminatorの誤差の平均

議論

なぜDiscriminatorの判別誤差を利用するのか（MSEじゃだめなの？）

MSEの課題は2つ

pixelのRGB値の差分がある程度小さくなると学習が止まってしまうため、生成される画像がボケる
- そもそもRMSEで仮定している誤差分布は正規分布だけど、画像のpixelは正規分布じゃない
target domainの画像はuniqueじゃない
- 例えば、商品画像なら色んな角度から撮影されているので、MSEだと正しく学習できない

実験

optimizerの学習率など、設定は論文に細かく書かれていて、とても親切
生成画像の自然さについて、アンケートによる定性評価とRMSE,SSIMによる定量評価

結果

その他

モデルの構造とか実験設定が細かく書かれててありがたい

[論文紹介] Pixel-Level Domain Transfer

論文

概要

貢献