論文紹介-#1 Dense 3D Face Decoding over 2500FPS: Joint Texture & Shape Convolutional Mesh Decoders


論文紹介-#1

落合先生のフォーマットを元に論文をまとめ紹介していく記事です。

今回は、CVPR2019のDense 3D Face Decoding over 2500FPS: Joint Texture & Shape Convolutional Mesh Decodersという論文を紹介します。

至らないところばかりなのでツッコミお待ちしてます!


どんなもの?

3DMMsという、画像から3Dモーフィングを生成するモデルを改良した論文。

本論文では顔画像に対して適用している。


先行研究と比べてどこがすごい?

線形あるいは非線形のデコーダーを持つ先行の3DMMsは、全結合層あるいはアンラップされたUV空間の2Dconv層でモデル化され、大規模なパラメタを必要とした。また、shapeとtextureを別々に求めていた。

本論文では、mesh convolutionを使うことでshapeとtextureの両方を直接求め、モデルサイズの縮小化(decoder size: 17MB, decode: 2500fps on CPU/Intel i9-7900X@3.30GHz)を実現した。

これにより3Dshape推測システム全体として300fpsという結果を得た。

スクリーンショット 2019-06-30 15.22.18.png


技術や手法のキモはどこ?

直接shapeとtextureを求めるmesh convolutionを使ったdecoder


どうやって有効だと検証した?

3DMDデータセットと300W-LPデータセットを使い、既存研究とreconstructionの精度を比較した。

スクリーンショット 2019-06-30 15.12.35.pngスクリーンショット 2019-06-30 15.22.05.png

また、笑顔などの顔の属性値を付与することでモデルの表現力を評価した。

スクリーンショット 2019-06-30 15.13.22.png

また、AFLW2000-3Dデータセットにおける3D face alignmentのタスクにおいても、3DDFAやN-3DMMよりは高く、PR-NETとは若干劣るぐらいの精度を見せた。

スクリーンショット 2019-06-30 15.17.34.png


議論はある?

言及なし


次に読むべき論文は?

Joint 3d face reconstruction and dense alignment with position map regression network