1. 概要
Neural Radiance Fields (NeRFs)は、ニューラルネットワークを使って3D空間の「光の場」を表現する技術のことを指す。光の場とは、あらゆる方向からの光が空間の各点でどのように見えるかを記録したもので、NeRFsはこの光の場を学習することで、3Dシーンの任意の視点からの画像を生成することができる。
一方、NeRFsは学習のために大量のデータを必要とし、画像のすべてのピクセルと、カメラから物体に向かって伸びる光線上のすべての3D点について情報を集める必要があるが、計算処理が膨大となるため、一定間隔でサンプリングが取られることが一般的となっている。
この研究では、前景となる見たい物体や風景のシーンの表面を数学的に表現し(implicit surface representation)、3D画像投影空間における確率密度関数をモデル化している。確率密度関数を使ったサンプリング(Probabilistic Sampling)を利用することで、例えば、物体の表面に近い場所のような関心領域の光線を重点的にサンプリングすることが可能となる。
さらに、この研究では新しい表面再構築損失(surface reconstruction loss)を提案している。この損失関数は、3D画像投影空間モデルを最大限に活用し、物体の表面に近い場所と空白空間の両方を考慮しており、より正確で詳細な3D形状の再構築が可能となる。
2. 新規性
-
確率密度関数を用いたサンプリング:
従来のNeRFsでは、光線上の点を一様またはランダムサンプリングするのに対し、提案手法では前景シーンの陰関数表面表現を利用して、3D画像投影空間における確率密度関数をモデル化している。この確率密度関数に基づいてサンプリングを行うことで、関心領域に焦点を当てた効率的なサンプリングが可能となる。 -
表面近傍と空白領域を考慮した新しい表面再構成損失:
従来のNeRFsでは、主にkラー画像の再現性を高める目的で損失関数が用いられていたが、提案手法では3D表面形状の再構成精度を高めるために、表面近傍と空白領域の点を考慮した新しい損失関数を提案している。
3. 実現方法
SDF(Signed Distance Function)ネットワークから得られる情報と視点情報を組み合わせることで、効率的に重要なレイをサンプリングし、高品質なレンダリングを実現している。
・まず、ニューラルネットワークを用いてシーンの陰関数表現を学習する (GX -> p(x)), (GX -> GU -> p(u))。3Dシーンをグリッドで表現し、SDFネットワークを用いて各3D点群における符号付距離を求める。このSDF値をロジスティック分布に通し、各3D点群が物体表面に近い確率を表す確率密度関数を定義する。このSDFネットワーク部分に、新たな表面再構築損失関数を用いている。
・次に、この陰関数表現を基に各光線が関心領域に属する確率を計算する確率密度関数を定義する (p(u) -> pe(u))。3D空間GXから、カメラの視点に基づいた3D画像空間GUへとマッピングする。GXで定義された確率分布p(x)を補間(Interpolation)し、GU上の確率分布p(u)に変換する。
・最後に、計算された確率に基づいて光線のサンプリングを行う。確率の高い光線ほどより多くのサンプル点をサンプリングする (pe(u) -> ũ)。p(u)は物体表面に近いかどうかだけ考慮しているので、実際にはカメラから見て遮断されている部分はレンダリングには寄与しないので、視点依存性(View Dependency)を考慮してp(u)を重みづけして最終的な確率分布pe(u)を得る。pe(u)に従って、未知の光線サンプルをサンプリング(Probabilistic Sampling)し、重要な光線を重点的にサンプリングする。
4. 結果
提案手法を様々なシーンに適用し、定量評価と定性評価の両方で、既存手法と比較して優れた性能を達成している。特に、複雑な形状や細かな詳細情報を持つシーンにおいて、提案手法はより正確な3D再構築と高品質なレンダリングを実現することが分かった。
関心領域のレンダリング品質が大幅に向上し、より鮮明で詳細な画像を生成することができており、計算コストの増加を最小限に抑えつつ、性能向上を達成した。
Paper URL: https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05407.pdf
last updates: Oct. 4 2024






