18
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

CartoonGAN: Generative Adversarial Networks for Photo Cartoonizationを読んだ

Last updated at Posted at 2018-09-06

Yang Chen, Yu-Kun Lai, Yong-Jin Liu
CVPR2018
pdf

どんなもの

現実世界の画像を漫画風の画像に変換するGAN, CatoonGANを提案.

image.png

先行研究との差分

既存の画風変換手法では以下のような漫画独特な特徴を十分に表現できなかった.

  • 漫画スタイルが持つハイレベルな簡単化や抽象化といった特徴
  • 漫画画像が持つ鮮明なエッジ,滑らかな色むら,比較的簡単なテクスチャ

これらの漫画の特徴を表現するために,2つの損失関数を提案.

  • (semantic) content loss : 写真と漫画の間のスタイル変換に対応するため,VGGnetの高レベルな特徴マップの疎な正規化で定式化
  • (edge-promoting) adversarial loss : 鮮明なエッジの維持が目的

技術や手法のキモ

1. CartoonGAN architecture

image.png

generator network

  • flat convolution stage
  • 2 down-convolution blocks
  • 8 residual blocks
  • 2 up-convolution blocks
  • convolutional layer

discriminator network

  • flat layers
  • 2 convolutional blocks
  • feature construction block
  • convolutional layer

2. Loss function

Adversarial loss

はっきりとしたエッジを持つ画像を生成させたい(従来のdiscriminatorはエッジ(少)だが,色むら(良)な画像を見分けるのが苦手)
→ エッジの有無も見分けられるようにすれば良さそう
→ 「cartoon」と「エッジぼかしcartoon」と「写真」を区別できるようなロスを設計

image.png

Content loss

写真中のコンテンツが,漫画変換後にも保持されるためのロス.

  • 変換後の画像がコンテンツをある程度保持していても,「特徴マップ」に違いが現れる
  • これにより,画像中の局所的な領域に違いが現れる
  • この局所的な違いを扱うには「L1スパース正則化」が適している

→ VGGnetの「特徴マップ(conv4_4)」の差の「L1スパース正則化」でロスを定義.

3. Initialization phase

GANの学習は局所解にハマりやすい.これを解決するためにgenerator networkの初期化を工夫.
→ content lossだけを使ってgenerator networkをpre-trainするとうまくいった
画像は写真とinitialization phaseを10epoch行なった結果の比較.

image.png

どうやって有効性を検証したか

定性的な比較,評価.
生成画像.
image.png

state-of-the-artとの比較.
公平のためNSTは1枚のスタイル画像を与える場合(従来)と複数のスタイル画像を与える場合(拡張版)で比較.
CycleGANについてはidentity lossの有無も比較.
image.png
CartoonGANを用いた方がエッジがはっきりと出ている.
image.png
「訓練にペアの画像(paired image)を使用する必要がない」という点はCycleGANも同じだが,訓練に必要な時間がCartoonGANの方が少なくて済む.
CycleGAN         : 2291.77 s
CycleGAN with identity loss : 3020.31 s
CartoonGAN        : 1517.69 s

CRFMRF, Deep Analogyとの比較.(image1)は写真に似た画像を選択,(image2)はランダムに画像を選択.
CartoonGANは作者の画風を捉えられている.
image.png

initialization phase無し,$L_1$でなく$L_2$を使用,edge loss(多分adversarial lossの方)無し,と比較.
初期化が無いと全くうまくいかない.
image.png

議論はあるか

  • エッジをうまく保持するためのロス
  • 特徴マップ,L1スパース正則化を用いたロス
  • 学習をうまく収束させるための初期化

を提案.
今後は

  • 人間の顔の漫画変換
  • 漫画変換特有の性質を扱うためのロス関数の設計
  • 動画を扱うために連続的,時系列的な制限の追加

を目指す.

次に読むべき論文

GANで画像の欠損部分を穴埋め,補完
Generative Image Inpainting with Contextual Attention

線画から色つけまで行うGAN
SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis

18
16
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
18
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?