More than 1 year has passed since last update.

画像から人体の3Dモデルを生成する技術

Last updated at 2023-02-25Posted at 2023-02-25

背景

メタバースやAR等の進展で人体の3Dモデル化は需要大
（Vtuber等のアバター,ゲームモーション作成、映像コンテンツの作成等）

今回は画像や動画からどうやって人体を3D化するかという技術を紹介したいと思います。

3Dモデルの表現方法

画像から3Dモデルを作成する上で重要なのは３Dをどのような形で表現をすればよりNNの学習に適しているかということです。

3DモデルをPoint Cloudのような点群として表現するのか、メッシュとして表現するのかなど同じ3Dにしても多数の表現方法があります。用途やNNの学習に適した表現形式が多数提案されており、今回はSMPLとNeRFという２つの表現方法に関してご紹介いたします。

押さえておきたい要素技術1: SMPLモデル

SMPLとは?

パラメータ化された人体の3Dモデル

SMPL: A Skinned Multi-Person Linear Model, SIGGRAPH ASIA 2015
project page

SMPLは6980個の3D頂点座標で構成された3Dモデルです。
23個の間接点,人の向いている方向,それぞれに対する回転角度$θ$と人の体格を決める10次元のパラメータ$β$という人間が解釈しやすい82個のパラメータで操作可能になっていることが特徴です。(24×3+10=82)

SMPLモデル自体が機械学習で作成されており、事前学習済みweightを用いて簡単にモデルのポーズを操作できるようになっています。

左足回転角を操作した例

なぜSMPLモデルがNNにとって良い表現か？

(1) 6980個の3D座標を直接推論するより72個の少ないパラメータを推定するだけでよい

(2) 推論結果が人体のモデルであることが保証されている

例えば6980*3の3d座標をNNのoutputにした場合　膝座標は腰と足首の中間的な座標になることが予測されるがその制約を与えることは通常困難です。SMPLのパラメータという中間表現を出力にすることで人体という事前制約を入れることが可能になります。

人体座標を間接的なパラメータ推定に置き換えることでNNにとって扱いやすい表現に

代表的な論文

End-to-end Recovery of Human Shape and Pose
project page
画像からの人体3Dポーズ推定

画像からNNでSMPLパラメータの推定する。正解3Dモデルが存在しないので作成した3Dモデルを2Dに再投影し2Dの関節位置の座標でlossを計算する。これに関しては以前記事を書いているのでそちらを参照ください (https://qiita.com/pacifinapacific/items/8894a922eb81014e16ae)

Textureのはりつけ

また人体モデル作成後は通常の3Dモデルと同じように扱えるので
UVmapを付与することでTextureを張り付けることも可能。

押さえておきたい要素技術2: NeRF

Representing Scenes as Neural Radiance Fields for View Synthesis
project page
NeRFは人体に限定しない一般的な再構成手法です。
別角度から撮影された100枚ほどの画像から対象の3Dオブジェクトを再構成できるようなモデルになります。

Neural Radiance Fieldsとは？

NeRFはNeural Radiance Fieldsの略称でRadiance FieldsというものをNNで表現したものです
(この論文発の名称になります)

Radiance Fieldとは3次元空間の点に色と密度を紐づけたベクトル場で　$(X,Y,Z,R,G,B,σ)$で表現されます。

上の図は3D空間のUnityちゃんを撮影する例
撮影される画像のピクセルは画像平面を通る光の直線上にある物体の色が反映されるので、
光線上にある色を積分すれば画像のピクセルがわかることになります。
光線を$r(t)=o+td$とカメラ原点から$d$の角度に$t$だけ伸びる光線とすると画像のピクセル$C(r)$は次のように表現することが可能です。

$C(\mathbf{r})=\int_{t_n}^t T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathrm{d}) \mathrm{d} t, \text { where } T(t)=\exp \left(-\int_{t_n}^t \sigma(\mathbf{r}(s)) \mathrm{d} s\right)$

$σ$はその色(物体)の密度≒不透明度
また前に物体があると後ろの物体は隠れて見えないので前のσの総和に従って減衰する$T$を積分に与えています。