Justin Johnson, Agrim Gupta, Li Fei-Fei, CVPR2018
arxiv, pdf
#1.どんなもの?
シーングラフから画像を生成する.
#2.先行研究と比べてどこがすごいの?
複雑な文章を再現できる.
#3.技術や手法のキモはどこにあるか?
###1.グラフ構造のを処理する方法を開発
グラフ畳み込みネットワークで処理.
画像のCNNのように,グラフのつながりに沿って畳み込みを行う.
###2.生成された画像がグラフによって指定されたオブジェクトと関係するようにした
オブジェクトごとに荒い画像と,バウンディングボックスを予測し,バウンディングボックス内に画像を配置したレイアウト画像を作成する.
アップサンプリングする場合は各層で前の層からの入力と,ダウンサンプリングされたレイアウト画像を用いる.
###3.合成画像が現実的であることを確認
ディスクリミネータを用いて学習することで現実的な画像を生成するよう訓練する.
#5.議論はあるか?
#6.次に読むべき論文はあるか?
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks