1. 概要
標準的なレンダリング戦略は点対点マッピングに基づいており、体の可視領域と遮蔽領域の間に劇的な不整合が生じる可能性がある。また、素朴な直接回帰アプローチは、遮蔽下でのレンダリングに関する妥当性基準(つまり、事前情報)を考慮していない。よって、モノクル動画からの移動する人物の3D理解とレンダリングは困難である。
これらの欠点への解決策として、重度の遮蔽シーンでより良い人物のレンダリングを実現するニューラルレンダリング手法を提案している。
2. 新規性
- 厳しい遮蔽がある実世界の状況下でのダイナミックな人物の描写を初めて研究した。
- サーフェスベースの描写、注目としての体の部位の可視性頻度の再定式化、および完全性の損失を提案した。これにより、物体遮蔽された単眼映像から人物の描写が可能となる。
- 従来の最先端技術と比較して、本手法が定量的・定性的に有意な改善を実現し、このトピックでの初のベースラインを生み出すことを実証した。
3. 実現方法
事前計算されたボディポーズ情報を使用して、可視な光線サンプルを特定の座標にマッピングする。それぞれの座標に最も近い頂点を見つけ、表面ベースの手法を使ってレンダリングする。トレーニング中には、見えやすさを示すスコアを頂点ごとに更新し、頻繁に見える頂点に注目を集めることでレンダリング品質を向上させる。さらに、4Dハッシュグリッドを使用してエンコードされた頂点や、距離情報をMLPに入力し、光度と知覚の制約を満たすように可視ピクセルを調整する。これにより、ジオメトリの完全性を促進する追加の損失関数も利用されている。
4. 結果
Simulatedと実世界のビデオの両方で、OccNeRFを最新の手法と比較した。最新の結果は、この研究分野での新たなベンチマークを設定した。
Paper URL: https://openaccess.thecvf.com/content/ICCV2023/papers/Xiang_Rendering_Humans_from_Object-Occluded_Monocular_Videos_ICCV_2023_paper.pdf
last updates: