ああ、二度とこの景色は見られないかも
と、思ったことはありませんか?
私は旅行先だったり、ふとした平和な時間によく思っています。
そんな思い出をどうにかして残したいですよね!誰かと感動を分かち合いたい!
写真や動画を撮るのももちろんいいのですが、その空間の雰囲気を伝えたい欲求が私にはありました!
良さそうな3D生成技術/サービスに触れて温度感を知りたい!!
360度カメラによる撮影やLiDARセンサーの活用などでも遊んでおりますが、今回は動画像から3Dモデルを生成するGaussian Splattingという技術に注目します。
というのも、普段↑のような遊びをしていた私のGoogleアカウントに、「Gaussian Splattingがアツい!」というニュースが9~10月ごろにかなり届いておりました。
どんなイケイケの技術かを実践したいとずっと思っており、今回はサービスとして手軽にGaussian Splattingを試せるLuma AIを活用することにしました。(詳細後述)
例えば、私は以下のようなXのポストを見て興味を抱きました!
🔥Luma magic reveal🔥
— Luma AI (@LumaLabsAI) November 5, 2023
Make it yourselves 👉🏽 https://t.co/tE2WKKn7bRhttps://t.co/xS1BuxkFl9 pic.twitter.com/wcWHt8gpFy
Gaussian Splattingで生成されるのは動画ではなく3Dモデルでして、専用のビューワーやエクスポートしたファイルでなら自分で好きな角度に視点を変えながら楽しめるんです!!
未来の自分に感動した景色をそのまま残したり、遠方の家族に自分の旅行先の感動を臨場感のある形で共有できる可能性があります。
ここまでで私が感じたわくわくは多少伝わったと思っており、モチベーションの話は以上とします!!
そのうえで、どうやったらこのクオリティのモノが作れるのかを調査します。
本記事でできたもの
結論から言うと、例のような超ハイクオリティのものを作るにはそれなりの労力が必要そうです..。
が、ある程度の3Dシーンはそれなりの枚数の画像を撮るだけで作れました。
↑のような3Dモデルが出来ました。
はじめに
ここまで長々と書いておいて何が「はじめに」だよというところはありますが今回はQiitaアドベントカレンダーの1枠としてこのような触ってみた系の記事を記載させていただきます!
普段はAWSのようなパブリッククラウドやk8sといった基盤系技術に業務で携わっております。
今回は完全に私の興味からネタを持ってきています!
今回は、LumaAIがどんな感じで使えるのか、お試し編に位置付けています。
Gaussian Splattingとはすごい技術だがカジュアルに使うにはハードルが高い..
今年8月に開催されたSIGGRAPH 2023(コンピュータ・グラフィクスやインタラクティブ技術に関するカンファレンス)で発表されたプロジェクトです。
論文は以下URLの通りでして、abstractから更に抜粋します。
First, starting from sparse points produced during camera calibration, we represent the scene with 3D Gaussians that preserve desirable properties of continuous volumetric radiance fields for scene optimization while avoiding unnecessary computation in empty space; Second, we perform interleaved optimization/density control of the 3D Gaussians, notably optimizing anisotropic covariance to achieve an accurate representation of the scene; Third, we develop a fast visibility-aware rendering algorithm that supports anisotropic splatting and both accelerates training and allows realtime rendering. We demonstrate state-of-the-art visual quality and real-time rendering on several established datasets.
どうやら、高速に高品質な3Dモデルを動画像から生成する技術のようです(カンゼンニリカイシタ)
もう少し読むと、画像から点群を推定し、ニューラルネットワークのような確率的勾配降下法を用いて3Dモデルを作るようです(フーン?)
GitHubで用意されたツール群を導入することで、個人PCにも導入してローカルで試すことが可能です。
ただ、Hardware Requirementsを見てみると、
CUDA-ready GPU with Compute Capability 7.0+
24 GB VRAM (to train to paper evaluation quality)
Please see FAQ for smaller VRAM configurations
との記載があり、それなりのマシンパワーが必要です...(この記事を言い訳にデスクトップPCを新調しましたが、メモリの増設が間に合いませんでした..)
そこでLuma AIですよ!
LumaAIは、カリフォルニア州サンフランシスコ発のLumaLabsというソフトウェア開発会社によって開発されたWeb/スマートフォン向けアプリケーションで、NeRFと呼ばれるフォトグラメトリとは違う技術で3Dモデル作成にアプローチできるアプリです。
NeRFという技術をアプリ経由でサクッと使える(画像をアップロードするだけでモデルを作れる)だけですごいのですが、なんと今年10月頃にGaussian Splattingにも対応しました。
..と、NeRFやフォトグラメトリとかいろいろ単語を出しましたが、Luma AIというアプリを使うことで簡単にGaussian Splattingが試せるとご理解いただければこのブロックで言いたいことは100%伝わっております!
アカウント登録して、動画像をアップロードすればOKです!
今回の私がやりたいこと(Gaussian Splattingを触ってみたい!)はこれでばっちり試せました。
サインアップし、さっそく作っていきます。
似たアプリにPolycamというものもありますが、Gaussian Splattingを非公開にしつつ無料で試せるという観点からLumaAIを選択しました。
色々書いていますが、今回の主眼はGaussian Splattingで遊んでみたい!というところにあり、あまりサービスの選定や使い方に重きをおいていません。
素材集めの前に、準備を確認
闇雲に写真撮影をしてうまく行かないとちょっと悲しいので、必要そうな情報を集めます。
以下にLumaAI使用時のベストプラクティスが公開されていますので、確認してみました。
抜粋すると、以下のことを注意すればよさそうです。
- ゆっくり撮る(ブレた写真・動画は避ける)
- できるだけ多くの視点で撮る
- オブジェクト全体をフレーム内に捉える
- 動き回るものは苦手(まあそうですよね)
- 動画を使う場合は、動画安定化をオフにすることが望ましい
- 動画よりも画像が望ましい
画像/動画から学習して3Dモデルを作る技術ですよ、ということを考えれば納得のベストプラクティスですね!
素材撮影
人が居ない深夜に写真を撮る時間が一番つらかったです
大量の写真・動画を撮りに行きました!
撮影しているのはGooglePixel 8 Proです。
画像:解像度12MP・RAW撮影は無し・ISO2500固定
動画:4K・フレームレート60fps・手ぶれ補正標準(オフが選べず..)
▼ 撮影会場イメージ(左側に木、右側にお洒落な縁石?がある小道となっております)
結果
ここから、LumaAIに撮影した画像を登録してみて、
どんな素材を入れるとどんな結果になったか、ご紹介していきます!
「なるべく手軽にモデル化したい」が根底にありますので最大限省エネのケースから実施します!
パターン①~⑧まで、どうぞお付き合いください。
と、その前に少しだけ脱線..
ご参考:LumaAIでの試し方は超カンタンです!ちょっと悩んだあなたは今すぐ試してください!
手順は超シンプルで、LumaAIにサインアップしたら
「Interactive Scenes」⇒「Start Now on Web for Free」と登録画面に遷移し、
Createから自分の作成した画像たちをアップするだけです。
画像をアップする際は、zip形式での圧縮をして1ファイルにすることをお忘れなく!
URL再掲しておきますね..
以下のような形で名前を付けて、画像形式を選択すればOKです!
360度カメラで撮った画像の場合はCamera Typeを変える必要がありますが、
普通にスマホやデジカメ等で撮った画像の場合はNormalでOKです!
ここまで終われば自動的にキューイングされてモデル化してくれますので、
わくわくしながら待つだけです!本当に、写真撮ってzip化してぶち込むだけの非常に簡単なステップです。
脱線ここまで!以降は私がモデルを作ってみた結果のご紹介に戻ります!
パターン①:動画から読み込ませる
「の」の字を描くようなイメージで約1分30秒の4K動画を撮ってアップしたところ、なんとなく分からなくもない分からんモデルが作れました!
旅先でさっと動画を撮って思い出を3Dデータ化するユースケースを思うと動画から生成できるとやはり楽な気がしますので、もう少し撮影時間を延ばし、角度や高さを変えながら試してみます。
パターン②:長めの動画から読み込ませる
パターン①と同じコースで高さを変えて2周した約3分の動画で、パターン①よりも情報量は増えたはずですがダメになってしまいました..
もっと明るいところで全体を撮ってね!と言われてしまっており、少なくとも今回の私の環境(深夜且つオブジェクトというよりも歩道全体を撮りたい)では相性が悪そうでした
仕方ないので、画像で実施します。
パターン③:画像3枚のみ
ミニマムを試したく、流石に厳しい予想はできますが、以下3枚の画像だけで作成しました。(流石に26時くらいともなると人がいません)
結果、画像枚数少なすぎ!最低10枚は撮ってね!と怒られちゃいました..
パターン④:12枚で撮影!
パターン③の画像はスタート地点から見て「正面」「左より」「右寄り」の3枚でした。
この画像をもとに、3歩ほど歩いて同じように3枚撮っていきます。
計12歩歩いて、3×4=12枚で挑戦です!
と思いきや失敗です...動画と同じく、情報が足りないみたいでした
パターン⑤:撮ったあと折り返して全体感を撮影
仕方ないので、画像枚数を一気に増やします。
「正面」「左より」「右寄り」の3枚セット×5のあと、
折り返して後ろを向いて(スタート地点あたりを見ながら)同じように撮影しました。
パターン④との差分としては、「画像枚数増加 + 反転して撮影を実施」 となります。
計73枚の画像で再挑戦です。
▼ 結果
Luma AIでガウシアンスプラットを試してみました! pic.twitter.com/PYCGcIobxj
— わっせ (@kawassssssse) December 4, 2023
急にそれっぽいモデルが出来ました!
やはりベストプラクティスにあった
- できるだけ多くの視点で撮る
- オブジェクト全体をフレーム内に捉える
あたりを守ることはとても大切そうです。
パターン⑥:味を占めてもっと大規模に撮る
パターン⑤のデータに合わせて、更に50枚くらい左側の木の陰のデータも加えて作成してみました。
▼ 結果
木の裏も撮ってみました pic.twitter.com/gyrl4sX1Zz
— わっせ (@kawassssssse) December 4, 2023
レンダリングされた動画には粗さも目立ちますが、それらしさが増しています。
パターン⑦:もう少し明るいところで撮影
そもそも失敗していたパターンは明るさが原因と書かれていたりもしていましたので、ここまで頑張っていた撮影ポイントを一旦諦めて光源がある箇所にずれて、もう少し光を取り込みながら撮影しました。
「正面」「左より」「右より」の3パターンの画角に加えて、「上向き」「下向き」を加えています。
5パターン×14で、計70枚の画像で挑戦します。
▼ 結果、一番それっぽくモデルができました!
かっこよく見える、、 pic.twitter.com/FjJKO2NY7C
— わっせ (@kawassssssse) December 4, 2023
パターン⑧(本記事のラストパターン):撮った素材全てをぶち込む!!!
ここまででご紹介していない角度でも画像を撮っておりまして、計500枚くらいの素材画像がありました。
画像同士ある程度同じ場所を撮っているので、
「もしかしてとりあえず全部突っ込めば大きな範囲の大きな綺麗なモデルができるのでは、、?」
と期待して全てをぶち込んでみました。
▼ 撮影イメージ(全然正確ではないですが、このくらいやけくそで全部入れています)
▼ 結果
素材は多ければ良いってものでもないらしい、、 pic.twitter.com/v7zL6iIvIK
— わっせ (@kawassssssse) December 4, 2023
全体感が分からない画像が多くなってしまうためか、モデルも穴があったりモヤがかかっていたり、全てぶち込めば良いというわけではなさそうです...
実践してみて分かったこと
ここまでの実践によって、以下のことが分かってきました!(ほぼベストプラクティスの情報を体感しただけ...?)
- 少なくとも暗い箇所では動画は向いていない
- 複数の角度から撮影が必要
- 明るいところで撮ったほうがクオリティが高い
- 「とりあえずあるだけの画像を入れれば一番良いものが出来る」訳では無さそう
とりあえずGaussian Splattingってなんだ?どんな感じかな?という気持ちで触ってみましたが、
かなり楽しめそうで奥が深いコンテンツであることが理解できました。
XやLumaAIのFeaturesを見ると非常にハイクオリティな作品ばかり目にしますが、きっとそれらの成果を得るには撮影者の努力があるんだろうな..と推察しております。
これから綺麗なGaussian Splattingの結果を見る際、撮影者への敬意を忘れずにいられそうです!
おまけ(と言いながら大切なのはここな気がします)
LumaAIの嬉しいところとして、様々なフォーマットで作成したモデルを取り出せる点が挙げられます。
例えば、glb形式でダウンロードできるのでUnity等にインポートしたり、AWS IoT TwinMakerのシーンにインポートしたりできます!
今回一番きれいにできたパターン⑦の結果を取り出すと以下のようになっています。
粗さはありますが、それなりに場所やクオリティが理解できるモデルが作れています!
さいごに
地面の歪み等こそありますが、たかだか70枚の画像だけでこのような3Dモデルやレンダリングされたお洒落な動画が作成できるのには驚きです!
今後、もっと明るい箇所で画角を意識しながら数百~数千枚の画像を使って試せばより良いモデルができるのではと期待しています。
多数の画像撮影には苦戦しそうですが、旅先の雰囲気を画像とも動画とも違う形で誰かに共有する選択肢の一つになりそうだと思いませんか?
次回以降の記事では、
- 本気で画像から3Dモデルを作るならNeRFやフォトグラメトリ・Gaussian Splattingの何を使えばいいのか
- Gaussian SplattingをLumaAIではなく自前のデスクトップPCで試すと結果は変わるのか
- 明るいところで撮影角度や枚数を本気で設定すれば高品質な3Dモデルが作れるのか
- (あきらめきれないので)動画から上手くモデル化する方法
だったりを記事にしたいと思っております!
またお願いいたします。ご拝読ありがとうございました!!