1. 概要
3D Gaussian Splatting(SIGGRAPH2023)は、3次元シーンを多数のガウシアン分布の形状で表現する新しい技術で、多視点画像を入力として高品質な任意視点画像を高速に生成できる特徴がある。従来、NeRF(Neural Radiance Field)ベースの手法がよく研究されているが、シーン全体を表現する連続関数を学習するため、メモリ効率が悪く、レンダリング速度が遅いという課題があった。3D Gaussian Splattingでは、シーンを疎なデータ構造で表現できるためメモリ効率が高く、高速レンダリングを特徴とする。
この研究では、2枚の画像を入力として3次元ガウシアン分布で表現される光の放射輝度(3D Radiance Field:3次元放射輝度場)を表現した関数を再構成する手法を提案している。提案手法では、学習時にリアルタイムかつメモリ効率の高いレンダリングを実現しており、推論時には高速な3次元再構成を実現している。
*Honorable Mention Award
2. 新規性
3次元ガウシアン分布を用いた表現は、NeRFに比べて疎な表現のため高速に動作するが、疎で局所的にしか表現できない局所最小値問題に陥ることがある。そこでこの研究では、奥行き方向に対してピクセル毎に離散確率分布を予測して、サンプリングを擬似的に密にする。予測した離散確率分布からガウス分布の平均値をサンプリングして3次元ガウシアンの位置を決めるが、このサンプリング操作は再パラメータ化トリックで微分可能なため、ガウシアンスプラッティングの表現を通じて勾配を逆伝播させることができる。
3. 実現方法
まず、各ピクセルに対応するガウシアンの確率分布を予測するために、2枚の画像からCNN(畳み込みニューラルネットワーク)を使って特徴量を抽出しておく。入力特徴マップ内の各ピクセル特徴 F[u] に対し、ニューラルネットワーク f を使って、3次元ガウシアン分布のパラメータ Σ (共分散行列)と S を予測する。
ガウス分布の平均値 μ (3次元位置)と不透明度 α を直接予測してしまうと局所最小値問題に陥ってしまうため、ニューラルネットワークでは直接予測しない。代わりに、ニューラルネットワーク f は深さ z に対するピクセルごとの離散確率分布 pϕ(z) を予測する。この確率分布は ϕ によってパラメータ化されている。
次に、サンプリングによって3次元ガウシアン分布の位置を決定する。各ガウシアンの不透明度は、サンプリングされた深さ z の確率に応じて設定される。任意視点からのレンダリング手法は従来技術を用いている。
4. 結果
NeRFベースの手法では、密な連続関数でシーン全体を表現してしまうため、前処理や後処理といった編集が困難であったが、3D Gausssian Splattingでは3次元空間をガウシアンで表現するため、シーンの解釈や編集が容易になった。
RealEstate10kとACIDデータセットを用いた広視野角の任意視点合成タスクに対して、提案手法では従来手法よりも高品質でメモリ使用率が極めて低く、推論時間も早かった。レンダリング速度に関しては、従来手法よりも最大で2.5倍高速になっている。
従来手法のLight Field Transformerよりも高品質に任意視点画像を生成できている。
last updates: June. 19 2024