複雑な制作指示ではChatGPT Imageが使いやすかった話
画像生成AIの進化は非常に速く、現在では一枚絵のイラストだけでなく、漫画制作やキャラクター制作にも十分使えるレベルになってきました。
私自身も、自作キャラクターを使った漫画制作のワークフローを作るために、複数の画像生成AIを試しています。
今回はその中でも、ChatGPT ImageとGoogle Nano Bananaを比較しました。
結論から言うと、単純な人物同一性や衣装差分の生成では、両者はかなり拮抗しています。
しかし、漫画制作のように、長いプロンプト、複数キャラクター、複数の参照画像、セリフ、背景、構図指定が重なってくると、ChatGPT Imageのほうが安定して使いやすいと感じました。
この記事では、その理由を実際の制作例をもとに整理します。
今回比較した用途
今回の目的は、単発の美麗イラストを作ることではありません。
やりたいことは、自作キャラクターを使った漫画制作です。
具体的には、次のような用途を想定しています。
- キャラクターごとの顔立ちを維持する
- 髪型や体型を維持する
- 衣装を差し替える
- 複数キャラクターを同じ画面に登場させる
- 背景画像を参照する
- セリフやナレーションを入れる
- 1コマ漫画として成立させる
- 最終的には4コマ漫画や複数コマ漫画へ展開する
つまり、単に「かわいい女の子を描く」ではなく、
誰が、どの服を着て、どこにいて、何をして、何を言っているか
を正確に制御する必要があります。
漫画制作では、この制御性が非常に重要です。
まず、人物同一性の維持はほぼ同格だった
最初に比較したのは、人物同一性の維持です。
同じキャラクターに対して、天使衣装と悪魔衣装を入れ替えるテストを行いました。
ここで見たかったのは、単に衣装を変えられるかどうかではありません。
- 顔立ちを維持できるか
- 髪型を維持できるか
- 体型を維持できるか
- ポーズを維持できるか
- 左右の人物の関係を維持できるか
- 衣装だけを自然に入れ替えられるか
という点です。
この比較では、ChatGPT ImageもGoogle Nano Bananaも非常に優秀でした。
ChatGPT


衣装を入れ替えても、どちらも顔やポーズをかなり忠実に引き継いでくれます。
「天使衣装のキャラクター」と「悪魔衣装のキャラクター」を入れ替えても、大きく破綻することはありませんでした。
この点については、明確な優劣はないと思います。
絵柄の方向性には違いがある
ただし、出力される絵柄の方向性には違いがあります。
ChatGPT Imageは、どちらかというと高品質なキャラクターイラスト寄りです。
線や塗りがなめらかで、完成イラストとしての見栄えがよく、リッチな印象があります。
一方で、Google Nano Bananaは、やや漫画・アニメ素材寄りに見えました。
線が比較的はっきりしていて、表情やポーズが分かりやすく、漫画用の素材として扱いやすい雰囲気があります。
そのため、この段階では、
ChatGPT Imageのほうが高品質
Google Nano Bananaのほうが漫画寄り
という印象です。
ただ、これは性能差というより、絵柄の好みに近いです。
単体のキャラクターイラストとして見ればChatGPT Imageが魅力的に見えますし、漫画素材としてはGoogle Nano Bananaのほうが馴染む場面もあると思います。
衣装差分の生成も、どちらも実用的
衣装の入れ替えについても、両者とも実用的でした。
漫画制作では、同じキャラクターに対して複数の衣装差分を作ることがよくあります。
たとえば、
- 制服
- 私服
- 仕事着
- 部屋着
- コスプレ衣装
- ファンタジー衣装
などです。
このとき、衣装を変えるたびに顔まで変わってしまうと、同じキャラクターとして使えません。
今回の比較では、ChatGPT ImageもGoogle Nano Bananaも、衣装だけを入れ替え、顔やポーズをおおむね維持できていました。
そのため、人物単体、または少人数の衣装差分生成という用途では、両者ともかなり使えると感じました。
差が出たのは、長文プロンプトと多参照画像への追従性
一方で、明確に差が見えたのは、かなり長いプロンプトを使い、さらに複数の参照画像を同時に与えたケースです。
今回の漫画制作では、単に「女の子を3人描く」といった単純な指示ではありません。
実際には、次のような情報をまとめて指定しました。
- キャラクター1の顔画像
- キャラクター1の衣装画像
- キャラクター2の顔画像
- キャラクター2の衣装画像
- キャラクター3の顔画像
- キャラクター3の衣装画像
- 背景参照画像
- 各キャラクターの位置
- 各キャラクターのポーズ
- 各キャラクターの表情
- 各キャラクターのセリフ
- ナレーション
- 画風
- アスペクト比
- 「このPanelだけを描く」という指定
- 追加人物を描かないという制約
こうなると、プロンプトというより、ほとんど制作指示書です。
このような条件の多いケースでは、Google Nano Banana側にやや混乱が見られました。

具体的には、ベッドに座っている制服のキャラクターと、床で正座している白いTシャツのキャラクターの顔がかなり似てしまいました。
本来は別キャラクターとして描き分けてほしい場面ですが、条件が増えたことで、人物ごとの対応関係が少し崩れたように見えます。
一方で、ChatGPT Imageではこの点がかなり安定していました。
- ベッドに座る制服のキャラクター
- 白いTシャツで正座するキャラクター
- 紫のジャケットで正座するキャラクター
という3人を、それぞれ別人としてきちんと描き分けてくれました。

つまり、ChatGPT Imageのほうが、
誰がどの顔で、どの服を着て、どこにいるか
という対応関係を安定して保持できていた印象です。
漫画制作では、この差がかなり大きい
この違いは、単体イラストではそこまで問題にならないかもしれません。
しかし、漫画制作では非常に重要です。
漫画では、1枚の中に複数の人物が登場します。
そして、それぞれに別々の役割があります。
たとえば今回の例では、
- Aはベッドに座って腕組みしている
- Bは白いTシャツで正座している
- Cは紫のジャケットで正座している
- Aは叱る側
- BとCは叱られる側
- Aだけが厳しい表情
- BとCはしゅんとしている
- それぞれ別のセリフを持っている
という構成です。
ここでキャラクターの顔や役割が混ざってしまうと、漫画として成立しにくくなります。
特に、オリジナルキャラクターを使った漫画では、読者に「これは誰か」が伝わることが重要です。
そのため、複数人物の描き分けが崩れることは、かなり大きな問題になります。
この点で、ChatGPT Imageはかなり安定していました。
ChatGPT Imageの強みは「絵の上手さ」だけではない
今回の比較で感じたのは、ChatGPT Imageの強みは単に絵がきれいなことではない、ということです。
もちろん、出力されるイラストの品質も高いです。
しかし、それ以上に大きいのは、制作指示を読む力です。
複数のキャラクター、複数の参照画像、衣装、背景、セリフ、構図、禁止事項。
これらを一つの長いプロンプトとして渡したときに、ChatGPT Imageは比較的安定して整理してくれました。
これは、漫画制作では非常に大きな利点です。
漫画制作では、プロンプトはどうしても長くなります。
単発イラストなら、
女の子、制服、教室、笑顔
のような短い指示でも成立するかもしれません。
しかし漫画では、
このキャラクターは左にいて、こちらを見ている。別のキャラクターは右で驚いている。背景は部屋。セリフはこの内容。ナレーションはこの位置。前回と同じ衣装。顔は参照画像に合わせる。追加人物は出さない。
というように、条件が積み重なります。
このような「制作仕様」を読ませる用途では、ChatGPT Imageのほうが扱いやすいと感じました。
1コマずつ生成する漫画制作ワークフローとの相性
今回の検証は、私が考えている漫画制作ワークフローとも関係しています。
以前は、4コマ漫画を一度に生成しようとしていました。
しかし、4コマを一括生成すると、どうしても失敗が増えます。
- コマごとにキャラクターが変わる
- セリフが崩れる
- コマ割りが意図と違う
- 1コマだけ失敗しても全体を再生成する必要がある
- プロンプトが長くなりすぎる
そこで、現在は次のような方式を考えています。
- キャラクター設定を作る
- 衣装設定を作る
- 背景素材を作る
- 各コマごとのプロンプトを作る
- 1コマずつ画像生成する
- 最後にコマ割りとして合成する
この方式では、1コマごとにキャラクターの位置、表情、セリフ、背景を細かく指定できます。
そして、この「1コマずつ制作する」方式では、ChatGPT Imageの長文プロンプト理解力がかなり役に立ちます。
比較まとめ
今回の比較をまとめると、次のようになります。
| 比較項目 | ChatGPT Image | Google Nano Banana |
|---|---|---|
| 人物同一性の維持 | 高い | 高い |
| 衣装入れ替え | 高い | 高い |
| ポーズ維持 | 高い | 高い |
| 絵柄の方向性 | 高品質イラスト寄り | 漫画・アニメ素材寄り |
| 長文プロンプトへの追従 | 強い | 条件が増えると混乱する場合あり |
| 多参照画像の整理 | 強い | 条件が増えると崩れる場合あり |
| 複数人物の描き分け | 安定 | 混同が起きる場合あり |
| 漫画制作との相性 | 複雑な制作指示に強い | シンプルな画像生成では優秀 |
誤解のないように言うと、Google Nano Bananaが悪いという話ではありません。
人物同一性の維持や衣装差分の生成では、非常に優秀でした。
ただし、今回のように複数のキャラクター、複数の参照画像、長い制作指示を扱う漫画制作では、ChatGPT Imageのほうが安定していました。
結論:シンプルな生成では同格、複雑な制作ではChatGPT Imageが有利
今回の結論は、次のようになります。
人物同一性や衣装差分の生成では、ChatGPT ImageとGoogle Nano Bananaはほぼ同格。
ただし、
- 長文プロンプトを使う
- 参照画像が多い
- 複数キャラクターが登場する
- キャラクターごとに顔・服・役割を分ける
- セリフやナレーションを入れる
- 漫画の1コマとして成立させる
という条件になると、ChatGPT Imageのほうが使いやすい。
特に、誰がどの顔で、どの服を着て、どこにいるかを安定して保持してくれる点は、漫画制作では大きな強みです。
画像生成AIの比較では、どうしても「どちらの絵がきれいか」に目が行きがちです。
しかし、漫画制作ではそれ以上に、制作指示への追従性と修正しやすさが重要になります。
その意味で、私の漫画制作ワークフローでは、ChatGPT Imageを中心に使うのが現実的だと感じました。
Google Nano Bananaは、単体イラストや漫画寄りの素材生成では非常に魅力があります。
一方で、複雑な条件を整理しながら複数キャラクターを描き分ける用途では、ChatGPT Imageに優位性がある。
これが、今回の比較で得た一番大きな結論です。
補足:今後の課題
もちろん、ChatGPT Imageにも課題はあります。
特に漫画制作では、
- 日本語文字の安定性
- セリフ位置の制御
- キャラクターの完全な固定
- 複数コマ間の整合性
- 表情差分の安定生成
といった問題はまだ残ります。
そのため、今後は画像生成AIにすべてを任せるのではなく、
- キャラクター設定
- 衣装設定
- 背景設定
- コマごとのプロンプト
- 画像生成
- 最終的なコマ合成
を分けて考える必要があると思います。
AIに完成漫画を一発で作らせるというより、
AIを漫画制作の素材生成ツールとして使う
という考え方のほうが、現時点では安定しそうです。
おわりに
今回の比較を通じて、画像生成AIの評価軸は一つではないと感じました。
単体イラストの美しさ、漫画素材としての使いやすさ、人物同一性、衣装差分、長文プロンプトへの追従性。
どれを重視するかによって、最適なツールは変わります。
私の用途では、シンプルな衣装差分ではChatGPT ImageとGoogle Nano Bananaはほぼ同格でした。
しかし、複雑な漫画制作指示を扱う場面では、ChatGPT Imageのほうが安定していました。
今後も、ChatGPT Imageを中心にしつつ、用途によってGoogle Nano Bananaなども使い分けながら、AI漫画制作のワークフローを整えていきたいと思います。

