論文まとめ：Zero-1-to-3: Zero-shot One Image to 3D Object

Last updated at 2024-12-29Posted at 2024-12-29

はじめに

ICCV 2023より以下の論文のまとめ
[0] R. Liu, et. al. "Zero-1-to-3: Zero-shot One Image to 3D Object" ICCV 2023.

CVF open access

github

概要

学習データにはない初めてのRGB画像１枚に対し（Zero-shot）、指定した角度だけ回転させた画像を生成するしくみ
事前に大規模な画像セットで様々な物体の様々な角度からの画像を学習させておく
その後、合成データセットにより、画像を角度の制約付きで学習させる

以下が生成した新しい角度における画像。

中列下の像の例では、像の左面を入力として、そこから上側に45°、左周りに60°回転させた位置からの画像を生成している。生成された画像は背中の上面が写り、体の下に足があり、もっともらしく見える。

右側はリアルではない画像に対するものだが、このようなデフォルメされた抽象画に対してもそれらしい形状を推定している。

背景

これまでの新視点画像生成における課題

入力画像に対して新視点からの画像を生成させる分野では、学習時に物体の画像と対応するカメラ外部パラメータが必要になるため、データセットの数が限られていた。あるいは特定のカテゴリーの物体に特化されていた
最近ではCO3D datasetのように１万以上の種々の物体からなるデータセットも登場したが、様々な物体の立体形状を学習するには数としては不十分であるう
一方で、2D画像のデータはネット上に大量に存在する。これを活かす仕組みがあれば、様々な物体に対応するモデルができるかもしれない

ネット上の大規模画像を利用する場合の課題

ネット上には様々な物体に対する多くの画像が存在するが、視点に関する情報がないので、これのみでは本モデルが構築できない
ネット上の画像は視点にバイアスがかかっている。例えば人や動物は顔が正面を向いている場合がほとんどであるなど

手法

事前学習

大規模データセットで学習した Stable Diffusionを用いる

本学習

以下のように

input View 画像
カメラ外部行列(R, T)
(R, T)で transform させた画像

をシミュレータから用意し、input view 画像と (R, T)をconditionとして、transformさせた画像を推定させるタスクを解く。

本学習で用いるdataset

データセットは [8]のObjaverseというものを用いた。
https://objaverse.allenai.org
このデータセットでは10万人以上のクリエーターがトータル80万以上の3Dモデルを作成している。

それぞれのデータに対して12視点の画像＋(R,T)を生成し、学習時はそれらから２つをpick upして用いる。

loss

以上から、lossは以下のように画像 $x$ 、新視点のカメラ外部パラメータ $R, T$ をconditionとして、ステップ $t$ のノイズ $\epsilon$ を推定させるよう学習させる。

\min_{\theta} \mathbb{E}_{ z \sim \epsilon(x), t, \epsilon \sim \mathcal{N}(0, 1)} \| \epsilon - \epsilon (z_t, t, c(x, R, T)) \|_2^2. \tag{2}

3D再構築

本論文の手法を用いれば元となる画像に対する別の視点からの画像が出力される。しかし実運用上それだけで足りるアプリケーションは少なく3Dの立体モデルが求められる場合が多い。

本論文でも出力された別視点画像をも用いて3D立体モデルを再構築する手法が述べられている。（論文中3.3）

具体的には[54]のScore Jacobian Changing (SJC)を用いる。この論文はちゃんと読んでないが、dreamFusionとは別の仕組みでNeRF空間を学習させるみたい。以下、概略図。

以下は3D再構築結果を他の主要手法と比較したもの。

結果

新視点からの画像生成

比較モデル

同じくRGB画像からzero-shotで新視点画像を推定する以下の手法と比較した

DietNeRF
Image Variations (IV)
SJC

用いたdataset

学習時のデータセットとは異なる以下２つのdatasetに対して推論させた。

Google Scanned Objects (GSO)
RTMV

メトリクス

画像の一致度を測る以下の４つで評価した。

PSNR
SSIM
LPIPS
FID

定量的評価

Google Scanned Objects (GSO)を用いた場合の結果は以下。

いずれの評価手法においても他の手法より精度がよい。

RTMVを用いた場合の結果は以下。

同じくいずれの評価手法においても他の手法より精度がよい。

定性的評価

以下はGoogle Scanned Objects (GSO)を用いた場合の他の手法との比較。

角度は他の手法でも正しいものがあるが、入力画像における物体に対して忠実に再現するかという観点では本手法（ours）が最も忠実。やはり、事前学習、本学習を含め大規模なデータセットで学習している効果が出ているか。

3D再構築した場合の他の手法と定性的な比較

以下のように、本手法（ours）が最も忠実に再現できている。

感想

本手法の対象分野は学習データ以外のRGBを入力として指定した新視点における画像生成タスクであるが、手法自体に真新しさは感じられない
しかしネット上の大量データで事前学習したモデルをいかすことで多様性を獲得し、また同様にかなり大量の3Dモデルを用いて新画像生成タスクを学習させたことで、高い性能が出たか？
論文では明確に述べられてないが、SJCやdreamFusionの課題として挙げられるヤヌス問題に対しどれくらの改善ができたのか知りたい

reference

[8] Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs,
Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, and Ali Farhadi. Obja- verse: A universe of annotated 3D objects. arXiv preprint arXiv:2212.08051, 2022.
[54] Haochen Wang, Xiaodan Du, Jiahao Li, Raymond A Yeh, and Greg Shakhnarovich. Score jacobian chaining: Lifting pretrained 2D diffusion models for 3D generation. In CVPR, 2023.

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up