Googleから登場した画像生成モデル「Nano Banana Pro(正式名称:Gemini 3 Pro Image)」について、実際使ってみました。
今回は、実際に私が入力したプロンプトとその出力結果をセットで公開し、検証してみます。
Nano Banana Pro(正式名称:Gemini 3 Pro Image)とは?
Nanobananaは、Googleのマルチモーダル基盤モデル「Gemini 3」をベースに構築された画像生成モデルです。従来の拡散モデル(Diffusion Model)に、Gemini特有の高度な推論能力を融合させることで、以下の3つの技術的ブレイクスルーを実現しています。
- 超高解像度出力: 最大 4K(4096x4096 ピクセル)解像度での画像生成に対応しています。
- 正確なテキスト描画: 日本語を含む多言語で、正確なテキストを描画できます。
- 一貫性のあるキャラクター生成: 複数の画像間で、同一人物やキャラクターの外見の一貫性を保つことができます。 複数の参照画像を取り込むことで実現します。
検証:プロンプト vs 出力結果
実際に3つの異なるケースで検証を行いました。
① テキストレンダリング:複雑な日本語描写
従来のAIが苦手とした「文字の空間配置」と「日本語フォントの整合性」をテストしました。
-
入力したプロンプト:
「本日開店。18時からスタート!」とはっきり書かれた木製の看板。場所は日本の情緒ある古い商店街の入り口。夕暮れ時の柔らかな光が差し込んでいる。
-
漢字・ひらがな・数字が混在しても、ストロークが崩れることなく生成されています。また、環境光(夕暮れ)が文字の彫り込み部分の影にまで反映されており、レンダリング精度が非常に高いことが伺えます。
② 被写体の一貫性(Character Consistency)
「同じキャラクターで別のシーンを作る」ことが容易になりました。
-
Step 1(ベース生成)
青いジャケットを着た少年
-
Step 2(コンテキスト維持)
この青いジャケットを着た少年が、今度は雪山でスキーを楽しんでいるシーンを作成して。表情は満面の笑みで。
-
少年の特徴を維持したまま、シチュエーションだけをガラリと変えることができました。
③ 画像編集
Nanobananaは既存画像の「編集」においても活用できます。
Nanobananaを使いこなすためのTips
検証を通じて分かった、より良い出力を得るためのコツです。
-
指示は「自然言語」で具体的に
単語の羅列よりも、「誰が・どこで・何をしているか」を明確な文章で記述する方が、Nanobananaのコンテキスト理解能力を最大限に引き出せます。 -
ネガティブな要素もチャットで調整
一度生成された画像に対し、「もっと明るく」「背景をシンプルに」といったフィードバックを対話形式で送ることで、微調整が容易に行えます。
まとめ
簡単に高品質な画像生成ができて驚きました。
Nanobanana Proの登場により、プロンプトエンジニアリングの難易度は下がり、より「意図に近いもの」が最初の一撃で出やすくなった印象です。モックアップ作成やデザイン業務において大きな武器になると思います。
皆さんもぜひ、自分のアイディアをNanobanana Proにぶつけてみてください!
最後までお読みいただきありがとうございました。
この記事が、皆さんのAI活用の一助になれば幸いです。



