1. 概要
NeRF(Neural Radiance Fields)を使った3Dモデルの生成は数多く提案されているが、先行研究の”DreamFusion”では事前学習済みのテキストから画像への拡散モデル(diffusion model)を使用してNeRFを最適化することで高精度な3Dモデルを自動生成することに成功している。
一方、1)NeRFの最適化が非常に遅い、2)NeRFの学習に低解像度(64x64)を用いたため生成クォリティが低い、といった問題があった。
2. 新規性
低解像度の画像を生成しておいて徐々に高解像度化する技術(coarse-to-fine)を利用して高速化と高解像度化に成功した。
3. 実現方法
まず、疎な3Dモデルの特徴量を用いて低解像度な画像で学習されたNeRFのモデル最適化を高速に行い、低解像度の画像で学習されたNeRFで構築されたテクスチャ付きの荒いメッシュモデルを求める。次に、微分可能レンダラーを用いて高解像度の画像を参照しながらパラメータの最適化を行う。荒く求めておいたメッシュに高解像度のテクスチャがマッピングされることで高品質な3Dモデルが得られる。カメラ位置はランダムな位置に配置されることで多面的な見かけに対応している。
*SDS(Score Distillation Sampling) Loss
4. 結果
先行研究であるDreamFusionに対して2倍高速に512x512の高解像度な3Dモデル生成に成功している。
last updates: June 20 2023