はじめに
今年はStable Diffusionと呼ばれるテキストからの画像生成が流行しましたね。Stable Diffusionの拡張版として、テキストからの3D画像の生成技術も最近公開されています。代表的なものにはStable Dreamfusion、Latent-NeRF、Score Jacobian Chaining (SJC) があります。今回はその中で、最新のSJCを取り上げたいと思います。
SJCの実行
こちらの記事を参考にさせていただきました。
私は全くの素人ですが、この記事の通りにやれば実行できましたので、筆者の方に感謝しております。
※Google ColabのColab Proプランへの加入が必要です。
サンプル3D画像
このように、プロンプトを指定してあげると様々な3D画像が生成されます。例えばハンバーガーですと、
A high quality photo of a delicious burger
というように指定してあげると生成されます。プロンプトの一覧はこちらに載っています。
実験①実在の人物
ジョンレノン
それでは、他の呪文を使って、実験してみたいと思います。まず、試してみたのが実在の人物です。サンプルではアメリカの大統領のfigureを生成できているので、他の職業の人でいきましょう。
ミュージシャンの中でも知らない人はいないであろうジョンレノンでやってみました。プロンプトはJohn lennon figure
です。結果はこうなりました。
髪の長いやせ型の面長な男性が出てきました。サングラスかメガネもかけていますね。世間のジョンレノンのイメージと一致していそうです。ちゃんと手まで生成されていていいですね。でも誰だか認識できないですね。X JapanのYOSHIKIとToshiを混ぜたような感じですかね。
イーロンマスク
次に世界の社長代表イーロンマスクです。プロンプトはElon musk figure
です。結果はこうなりました。
誰...?筋骨隆々のピンクの男が出てきてしまいました。アイアンマンみたいですね。
世界的に有名な外国人俳優
ここまでの結果から、多く写真を撮られている人がいいだろうと考えました。そうするとたくさん映像がありそうな俳優さんとかでしょうか。そして、海外の人が集めたデータセットであることを考えると外国人。世界的に有名な外国人俳優...。
そうだ!ジャックニコルソンだ!
ジョンレノンでは顔の特徴まで判別できませんでしたが、ジャックニコルソンであれば、かなり特徴的な顔、眉毛をしているので、判別できるのではないでしょうか。Jack Nicholson figure
で試してみました。
figureで指定してるのに、まさかフェイスマスクで出てくるとは...。顔面の圧が強すぎるのでしょうか。しかもシャイニングの角度と完全に一致。
これも、怖い顔の男性というように感じますが、ジャックニコルソンであるかは判別できない気がします。そして、平面的な画像が生成されてしまっています。
実験②キャラクター
ピカチュー
実在の人物ではなく、キャラクターではどうでしょうか。まず、ピカチュウでやってみました。プロンプトはpikachu figure
です。
サトシ「いけっピカ.......」
サトシ「.....ピカチュー!!!!!!!」
ピカチュー「こんなになっちゃった........」
全方位顔面クリーチャーピカチューの誕生ですね。正面の画像ばかり学習しているからこうなってしまうのでしょうか。角度によってはちゃんとかわいい顔してますね。
綾波レイのねんどろいど
次に綾波レイのねんどろいどを生成してみました。プロンプトはRei Ayanami nendoroid
です。
青いショートの髪に白い服装までは再現できています。しかし、目が赤くないですし、やっぱり背面も顔になってしまいますね。微妙に横顔は生成できている気がします。
実験③建造物
法隆寺
まず、法隆寺でやってみました。プロンプトは、A zoomed out high quality photo of Horyu-ji Temple
です。
明らかに五重塔ではありませんね。上から見ると五角形してるし...。これって法隆寺なのかな。
スカイツリー
スカイツリーも試してみました。プロンプトは、A zoomed out high quality photo of Tokyo Sky Tree
です。
スカイツリーのようなものが生成されていますね。ちょっと平面的な感じもしますが。
実験④食べ物
エクレア
みんな大好きエクレアを生成しました。プロンプトはDark chocolate covered eclair
です。
どうでしょうか。いろいろ試してみたのですが、どうしてもクリームがはみ出てしまいます。様々なタイプのエクレアがあるからでしょうか。
まとめ
いかがだったでしょうか。様々なプロンプトを試してみましたが、想定通りにいくものは少ないです。あまり長いプロンプトにも対応してないようです。まだtext to 3D imageには課題点がありそうですね。ぜひ皆さまもSJC試してみてください。