1. 概要
DreamFusionは事前に学習されたテキストから画像に変換するモデルを使用し、Neural Radiance Fields(NeRF)の最適化を行うことで、テキストから3D合成で驚くべき結果を得た。しかしながら、Dreamfusionには2つの限界がある:(a)NeRFの最適化が非常に遅いこと、(b)NeRFの低解像度な画像空間でのスーパーバイズが低品質の3Dモデルを導き、処理時間が長くなること。本論文では、これらの限界に取り組み、2段階の最適化枠組みを利用することで、限界を解決する。まず、低解像度のdiffusion priorを使用して、荒いモデルを取得し、スパースな3Dハッシュグリッド構造を用いて加速する。荒い表現を初期化として使用し、高解像度のlatent diffusion model(LDM)と相互作用する効率的なdifferentiable rendererを用いてテキスチャ付きの3Dメッシュモデルをさらに最適化する。
2. 新規性
Magic3Dは、DreamFusionよりも2倍速く、40分で高品質の3Dメッシュモデルを作成できる。また、解像度も高くなっており、DreamFusionよりも優れている。ユーザーの評価では、61.7%の評価者がDreamFusionよりも本手法を好むことが分かった。画像条件付きの生成能力と合わせて、新しい3D合成の制御方法を提供し、様々なクリエイティブアプリケーションに新しい可能性を開くことができる。
3. 実現方法
背景: Dreamfusion
DreamFusionは、シーンモデルとテキストから画像を生成するジェネレーターモデルの2つの重要なコンポーネントにより、テキストから3D画像を生成することができる。シーンモデルは、望ましいカメラの位置で画像を生成することができるパラメトリック関数x=g(θ)である。ここで、gはボリューメトリックレンダリングであり、θは3Dボリュームを表す座標ベースのMLPである。拡散モデルϕには、テキスト埋め込みy、ノイズレベルt、およびノイズのサンプリング予測が含まれる学習済みのノイズ低減関数ϵϕ(xt; y, t)がある。拡散事前分布の条件付き下で、すべてのレンダリングされた画像が高確率密度領域にプッシュされるように、θを更新するための勾配方向を提供する。具体的には、DreamFusionはスコア蒸留サンプリング(Score Distillation Sample: SDS)を導入し、勾配を計算する。
手法
高解像度のジオメトリとテクスチャを生成するために、Coarse-to-fineへの二つの異なる拡散事前分布を使用する。最初の段階では、eDiff-Iで説明されている基本的な拡散モデルを使用し、64×64の低解像度でレンダリングされた画像上で定義された損失を介して、シーンモデルの勾配を計算する。2番目の段階では、高解像度の512×512のレンダリング画像に勾配を逆伝播できるLDMを使用する。
4. 結果
DreamFusionと比較し、Magic3Dがより高品質な3Dモデルを生成することが確認された。また、ユーザー調査でもMagic3Dがより高い品質を持つことが示された。初期モデルに高解像度のLDMプライヤーを使用することは適切ではないことが示され、代わりにメモリ効率の良い3D表現を用いる必要があることが分かった。また、Coarse-to-fineの手法を用いることで、シーンモデルのメッシュとNeRF両方で質的な向上が見られた。