はじめに
ICCV 2023より以下の論文のまとめ
[0] R. Liu, et. al. "Zero-1-to-3: Zero-shot One Image to 3D Object" ICCV 2023.
CVF open access
github
概要
- 学習データにはない初めてのRGB画像1枚に対し(Zero-shot)、指定した角度だけ回転させた画像を生成するしくみ
- 事前に大規模な画像セットで様々な物体の様々な角度からの画像を学習させておく
- その後、合成データセットにより、画像を角度の制約付きで学習させる
以下が生成した新しい角度における画像。
中列下の像の例では、像の左面を入力として、そこから上側に45°、左周りに60°回転させた位置からの画像を生成している。生成された画像は背中の上面が写り、体の下に足があり、もっともらしく見える。
右側はリアルではない画像に対するものだが、このようなデフォルメされた抽象画に対してもそれらしい形状を推定している。
背景
これまでの新視点画像生成における課題
- 入力画像に対して新視点からの画像を生成させる分野では、学習時に物体の画像と対応するカメラ外部パラメータが必要になるため、データセットの数が限られていた。あるいは特定のカテゴリーの物体に特化されていた
- 最近ではCO3D datasetのように1万以上の種々の物体からなるデータセットも登場したが、様々な物体の立体形状を学習するには数としては不十分であるう
- 一方で、2D画像のデータはネット上に大量に存在する。これを活かす仕組みがあれば、様々な物体に対応するモデルができるかもしれない
ネット上の大規模画像を利用する場合の課題
- ネット上には様々な物体に対する多くの画像が存在するが、視点に関する情報がないので、これのみでは本モデルが構築できない
- ネット上の画像は視点にバイアスがかかっている。例えば人や動物は顔が正面を向いている場合がほとんどであるなど
手法
事前学習
- 大規模データセットで学習した Stable Diffusionを用いる
本学習
以下のように
- input View 画像
- カメラ外部行列(R, T)
- (R, T)で transform させた画像
をシミュレータから用意し、input view 画像と (R, T)をconditionとして、transformさせた画像を推定させるタスクを解く。
本学習で用いるdataset
データセットは [8]のObjaverseというものを用いた。
https://objaverse.allenai.org
このデータセットでは10万人以上のクリエーターがトータル80万以上の3Dモデルを作成している。
それぞれのデータに対して12視点の画像+(R,T)を生成し、学習時はそれらから2つをpick upして用いる。
loss
以上から、lossは以下のように画像 $x$ 、新視点のカメラ外部パラメータ $R, T$ をconditionとして、ステップ $t$ のノイズ $\epsilon$ を推定させるよう学習させる。
\min_{\theta} \mathbb{E}_{ z \sim \epsilon(x), t, \epsilon \sim \mathcal{N}(0, 1)} \| \epsilon - \epsilon (z_t, t, c(x, R, T)) \|_2^2. \tag{2}
3D再構築
本論文の手法を用いれば元となる画像に対する別の視点からの画像が出力される。しかし実運用上それだけで足りるアプリケーションは少なく3Dの立体モデルが求められる場合が多い。
本論文でも出力された別視点画像をも用いて3D立体モデルを再構築する手法が述べられている。(論文中3.3)
具体的には[54]のScore Jacobian Changing (SJC)を用いる。この論文はちゃんと読んでないが、dreamFusionとは別の仕組みでNeRF空間を学習させるみたい。以下、概略図。
以下は3D再構築結果を他の主要手法と比較したもの。
結果
新視点からの画像生成
比較モデル
- 同じくRGB画像からzero-shotで新視点画像を推定する以下の手法と比較した
- DietNeRF
- Image Variations (IV)
- SJC
用いたdataset
学習時のデータセットとは異なる以下2つのdatasetに対して推論させた。
- Google Scanned Objects (GSO)
- RTMV
メトリクス
画像の一致度を測る以下の4つで評価した。
- PSNR
- SSIM
- LPIPS
- FID
定量的評価
Google Scanned Objects (GSO)を用いた場合の結果は以下。
いずれの評価手法においても他の手法より精度がよい。
RTMVを用いた場合の結果は以下。
同じくいずれの評価手法においても他の手法より精度がよい。
定性的評価
以下はGoogle Scanned Objects (GSO)を用いた場合の他の手法との比較。
角度は他の手法でも正しいものがあるが、入力画像における物体に対して忠実に再現するかという観点では本手法(ours)が最も忠実。やはり、事前学習、本学習を含め大規模なデータセットで学習している効果が出ているか。
3D再構築した場合の他の手法と定性的な比較
以下のように、本手法(ours)が最も忠実に再現できている。
感想
- 本手法の対象分野は学習データ以外のRGBを入力として指定した新視点における画像生成タスクであるが、手法自体に真新しさは感じられない
- しかしネット上の大量データで事前学習したモデルをいかすことで多様性を獲得し、また同様にかなり大量の3Dモデルを用いて新画像生成タスクを学習させたことで、高い性能が出たか?
- 論文では明確に述べられてないが、SJCやdreamFusionの課題として挙げられるヤヌス問題に対しどれくらの改善ができたのか知りたい
reference
-
[8] Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs,
Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, and Ali Farhadi. Obja- verse: A universe of annotated 3D objects. arXiv preprint arXiv:2212.08051, 2022. -
[54] Haochen Wang, Xiaodan Du, Jiahao Li, Raymond A Yeh, and Greg Shakhnarovich. Score jacobian chaining: Lifting pretrained 2D diffusion models for 3D generation. In CVPR, 2023.