More than 5 years have passed since last update.

CartoonGAN: Generative Adversarial Networks for Photo Cartoonizationを読んだ

Last updated at 2018-09-26Posted at 2018-09-06

Yang Chen, Yu-Kun Lai, Yong-Jin Liu
CVPR2018
pdf

どんなもの

現実世界の画像を漫画風の画像に変換するGAN, CatoonGANを提案．

先行研究との差分

既存の画風変換手法では以下のような漫画独特な特徴を十分に表現できなかった．

漫画スタイルが持つハイレベルな簡単化や抽象化といった特徴
漫画画像が持つ鮮明なエッジ，滑らかな色むら，比較的簡単なテクスチャ

これらの漫画の特徴を表現するために，2つの損失関数を提案．

(semantic) content loss : 写真と漫画の間のスタイル変換に対応するため，VGGnetの高レベルな特徴マップの疎な正規化で定式化
(edge-promoting) adversarial loss : 鮮明なエッジの維持が目的

技術や手法のキモ

1. CartoonGAN architecture

generator network

flat convolution stage
2 down-convolution blocks
8 residual blocks
2 up-convolution blocks
convolutional layer

discriminator network

flat layers
2 convolutional blocks
feature construction block
convolutional layer

2. Loss function

Adversarial loss

はっきりとしたエッジを持つ画像を生成させたい（従来のdiscriminatorはエッジ（少）だが，色むら（良）な画像を見分けるのが苦手）
→ エッジの有無も見分けられるようにすれば良さそう
→ 「cartoon」と「エッジぼかしcartoon」と「写真」を区別できるようなロスを設計

Content loss

写真中のコンテンツが，漫画変換後にも保持されるためのロス．

変換後の画像がコンテンツをある程度保持していても，「特徴マップ」に違いが現れる
これにより，画像中の局所的な領域に違いが現れる
この局所的な違いを扱うには「L1スパース正則化」が適している

→ VGGnetの「特徴マップ(conv4_4)」の差の「L1スパース正則化」でロスを定義．

3. Initialization phase

GANの学習は局所解にハマりやすい．これを解決するためにgenerator networkの初期化を工夫．
→ content lossだけを使ってgenerator networkをpre-trainするとうまくいった
画像は写真とinitialization phaseを10epoch行なった結果の比較．

どうやって有効性を検証したか

定性的な比較，評価．
生成画像．

state-of-the-artとの比較．
公平のためNSTは1枚のスタイル画像を与える場合（従来）と複数のスタイル画像を与える場合（拡張版）で比較．
CycleGANについてはidentity lossの有無も比較．

CartoonGANを用いた方がエッジがはっきりと出ている．

「訓練にペアの画像(paired image)を使用する必要がない」という点はCycleGANも同じだが，訓練に必要な時間がCartoonGANの方が少なくて済む．
CycleGAN 　　　　　　　　: 2291.77 s
CycleGAN with identity loss : 3020.31 s
CartoonGAN 　　　　　　　: 1517.69 s