More than 1 year has passed since last update.

論文まとめ：D-NeRF: Neural Radiance Fields for Dynamic Scenes

Posted at 2022-05-11

はじめに

CVPR2021より以下の論文
[1] A. Pumarola, et. al. D-NeRF: Neural Radiance Fields for Dynamic Scenes. CVPR2021
のまとめ

${\rm \bf x} = (x, y, z)$: 物体に関する３次元座標
${\rm \bf c} = (r, g, b)$: 推定するカラー
$\sigma$: 推定する密度
${\rm \bf d} = (\theta,\phi)$: view direction
としたときに目標は

\mathcal{M} :({\rm \bf x}, {\rm \bf d}, t) \rightarrow ({\rm \bf c}, \sigma)

と写像する $\mathcal{M}$ を求めること。NeRF原論文との違いで言うと、物体が動くので時間の要素 t が加わっている。

この $\mathcal{M}$ を直接求めようとする手法もあるが、筆者らの実験では以下のように２段階に分けた方が上手くいくとのこと。

この図にあるように $\Psi_t : ({\rm \bf x}, t) \rightarrow \Delta {\rm \bf x}$ と default の状態（t = 0の状態）に対する差分を出力する。

こうして求まった scene canonical space に対して $\Psi_x : ({\rm \bf x} + \Delta {\rm \bf x}, {\rm \bf d}) \rightarrow ({\rm \bf c}, \sigma)$ で色と密度を推定する。

８層のMLP。NeRFのネットワークと違い、密度 $\sigma$ も最終層から出力される。

こちらも８層のMLP。

canonical network 、あるいは NeRF のMLPと同様、neural networkが高周波なものを再現しにくいという性質を補完するため、入力で以下のように座標 x や向き d encode する。

\gamma (p) = <(\sin {\left( 2^l \pi p \right)}, \cos{\left( 2^l \pi p \right) } >_0^L

canonical space上ではNeRFの neural radiance fieldと同様にレンダリング。

NeRFと同様レンダリングしたカラーと正解値のカラーとの差。

以下の図は学習後の新たな視点に対する推論結果。

各行は上からcanonical space(t=0), t=0.5, t=1.0。

各列は左からカラーをレンダリングしたもの、それを voxcel化してmarching cube algorithでmesh化したもの、depth、canonical spaceに対する変位を可視化するため同じ部位を同じ色としたもの。

以下はNeRFとT-NeRF（canonical spaceを用いず、直接 radiance fieldで変位まで学習したもの？）、とのMSE, PSNR, SSIMの比較。

deformableなデータを用いているので、NeRFはこれに対応できず精度が悪い。T-NeRFとD-NeRFとではD-NeRFが若干よい。