はじめに
前回の記事「ChatGPTの絵から3Dモデルの部品を大量生成する。」、沢山ご覧いただき有難うございました。
あの記事では触れなかったんですが、既存のimage to meshはアイテムの生成には強くても、「カフェの内部の建物部分」のような空間の生成は苦手なんですよね。だから、あの記事では「部品の生成」しか行ってないわけです。
そこで、やや姑息的な解決策として、AIに「箱庭」の画像を生成させ、それの壁や床部分だけを取り出し、それを3Dモデルにする方法を考えてみました。いろいろなアイテムを置くときの簡易的な背景として使えると思います。
「箱庭」画像の生成
ここでいう箱庭画像とは、例えば以下のようなものです。ChatGPTで生成しています。

空間を斜め上から見ており、外周の輪郭は正六角形に近いです。これはisometric projectionと言われる投影方法で、ゲームなどでもおなじみですよね。手前でも奥でも大きさは変化しないのでゆがみが少ない、空間全体を一つの画像に入れられるので便利です。大抵の画像生成AIなら、プロンプトにisometric projectionと入れればそれっぽく生成してくれます。例えば、上の画像なら
画像を作成する ヨーロッパ風のカフェの内部
isometric projection
という感じです。シーン全体を画像に収めたいので、はみ出している部分が多いときはカメラを後ろに下げてください
、もう少し離れた視点の画像にしましょう
といった指示を出してください。
背景だけを残す。
さて、上の画像では単にカフェと指示したので椅子など余計なものがあります。これを除去しましょう。とりあえず、画像を生成した後に続けて
この画像から、家具をすべて除去してください。
と指示します。すると以下のように、椅子やテーブル、コーヒーメーカーなどが削除されました。

しかし、左の壁にカウンターなどが残っています。基本的に、壁から凹んだり出っ張っているものは箱庭背景の邪魔になるので、除去します。ここでは、ChatGPTの画像選択ツールを使います。生成された画像をクリックすると右上に出てくる投げ縄のようなアイコンをクリックしてください。
こういう感じに、凹みやでっぱり部分を選択して、「選択部分を除去してください」と指示しましょう。

良い感じで除去してくれます。ChatGPTの「除去力」はなかなかですね。

これで箱庭画像から余計なものを除去して「背景」部分だけを取り出せたので、これをダウンロードして画像ファイルを保存してください。
箱庭背景画像を3Dモデルにする。
次に、作った画像を3Dモデルに変換します。私が作った箱庭メイカーを使います。
名前の通り、isometric projectionスタイルの画像から3Dモデルを作ります。単純に壁と床に相当する画像部分をテクスチャとして張り付けるだけで、AIによる推論はありません。
ページを開いたら、指示に通り画像をアップロードしてください。すると、以下のように、頂点を選択するよう指示が出ます。
これは要するに、壁と床に相当する部分を自分で切り取ってください、ということです。頂点を選ぶ順番が決まってるので、画面の指示通りに7つの頂点を順に選択してください。
上下の頂点は生成画像の中で見切れてしまってることも多いですが、その場合「この辺が頂点だろう」と思うあたりの余白をクリックしてください。失敗したら、「取り消す」ボタンを使います。頂点をすべて選択したら、右下の「頂点選択完了」を押して下さい。
すると、3Dモデルが生成されます。
モデルのglbファイル、および壁と床のテクスチャファイルは下のボタンでダウンロードできます。
天井と残りの壁を追加する
原理的に、箱庭画像では床+壁2面しか作れないんですが、どうしても天井や残りの壁も欲しいという人のために、雑な天井と壁を作る手段も用意しました。
まず天井ですが、テクスチャパターンを使います。ChatGPTで、今までのやり取りに続いて
画像を作成する この部屋の天井の壁紙のために、
上下左右にシームレスでタイラブルな
テクスチャ画像を生成してください。
とリクエストしてください。すると、以下のような画像を生成します。

厳密にはシームレスではないのですが、それっぽい感じはありますよね。完全なシームレスにするなら、シームレステクスチャメーカーを用意したので使ってみてください。
画像ができたらダウンロードして、「3Dモデルのオプション」の「天井を作成」から、天井パターンをアップロードしてください。すると、以下のようにテクスチャが適用された天井が作成されます。
壁については、単純に向かい合う壁をコピーするだけです。「手前の左/右壁を作成」のオプションをオンにすれば作成されます。
中はこういう感じです
ImageFXでもう少し広い箱庭を
ChatGPTの画像生成と除去機能は素晴らしいんですが、画像が正方形に近いので、どうしても狭い空間しか出力できません。広い空間を作るには横長にしてほしいのですが、そうすると下のような空間の一部だけを写した絵になりがちです。

そこで、ImageFXを試してみます。こちらは、出力画像のアスペクト比を選べるうえ、アスペクト比を変えても出力の傾向が大きく変わらないという利点があります。英語しか受け付けない、ネガティブプロンプトが効きづらいなどの欠点はありますが、、、。
まずは、以下のようなプロンプトを試してみてください
an interior view of an European cafe,
no people, isometric projection.
すると、複数の候補画像を生成してくれます。
なるべくごちゃごちゃしておらず、壁の凹凸が少なく、上下が見切れていないものを選んでダウンロードして下さい。
ダウンロードしたら、ChatGPTにアップロードして、先ほど同じように余計なものを除去しましょう、ただし、「元の画像のアスペクト比を維持すること」という指示を加えてください。そうしないと正方形画像になってしまいます。
元画像より微妙に縦に長いですが、一応横長になってくれてます(ChatGPTは本当に横長が苦手、、)。
アップロードしたての画像は範囲選択で除去の指定ができないですが、ChatGPTが一度処理した画像には可能なので、とりあえずプロンプトで家具などを消した後に、範囲選択で余計なもの(今回は無駄な天井部分)を消してください。
クリーンナップが出来たら、変換ツールで3Dにしましょう。
最初の例より広い空間になりましたね。
Gemini 2.0 Flash (Image Generation) Experimentalを使ってみる。
ChatGPTの画像編集力は高いんですが、絵の雰囲気や中身を勝手に変えることがあって不便なところもあります。なので、目的によってはGemini 2.0 Flash (Image Generation) Experimentalを使うとよいでしょう。
これはGoogle AI Studioなどで使えます。ChatGPTに比べると元絵に忠実ですが、消してほしいものを消してくれなかったり、消した跡が汚かったりすることがありますね。同じ命令を何度も繰り返すとうまく消えることもあります。

消し残りがあったら、WindowsのPaintアプリにあるCopilot/生成消去機能で消して、消し跡をGeminiに"Fix this image"とお願いして修復してもらうこともできます。試してみてください。ほかにもPhotoshop(有料ですが)やpixelcutなど使って微修正できます。探してみましょう。
おわりに
画像生成については、ほかにも良いサービスがあるかもしれません。ご存じでしたらコメントいただければ幸いです。
今回の方法は原理的に3面しか作れないと言いましたが、もしかしたら工夫すれば、残りの面もChatGPTで合成出来るかもしれません。もう少し検討してみます。