Supershipグループ Advent Calendar 2025

Nano Banana Proに生成が難しそうな画像を作ってもらい、Veo 3.1で動画化してみた

Last updated at 2025-12-24Posted at 2025-12-24

Supershipグループ Advent Calendar 2025の25日目の記事になります。

Supershipの名畑です。僕のヒーローアカデミアが終わる頃には週刊少年ジャンプも卒業かなと以前は思っていたんですが、SAKAMOTO DAYSは面白いし、あかね噺も面白いし、最近始まったさむわんへるつはツボすぎるし、結局今年も卒業できませんでした。

はじめに

生成AI絡みのニュースが連日のように飛び込んでくる昨今ですが、直近ですとやはり衝撃的だったのはNano Banana Proでしょうか。

AIによる画像生成技術は過去数年で大きく進歩したが、Googleの「Nano Banana」モデルは、AIによる制作を全く新しい、ある意味で恐ろしいレベルへと引き上げた。初代「Gemini 2.5 Flash Image」と新しいPro版「Gemini 3 Pro Image」の2つのバージョンが登場してからまだ数カ月しか経っていないが、これらはAIによる画像生成と編集で何が可能かという定義を急速に塗り替えつつある。

参考：グーグル「Nano Banana Pro」がリアルすぎて恐ろしい　これがAI画像と分かりますか？ - CNET Japan

Googleが高品質な画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」を2025年11月20日にリリースしました。各種画像生成AIの画像編集能力を比較しているウェブサイト「GenAI Image Editing Showdown」にもNano Banana Proでのテスト結果が追加されており、旧モデルのNano Bananaや他社製モデルの結果を比較できるようになっています。

参考：Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」は過去モデルや他社製モデルと比べてどれくらい優秀なのか？ - GIGAZINE

11月20日に、グーグルの画像生成AI「Nano Banana Pro」がリリースされました。あまりにも性能が高くて、その上、汎用性も高いために、これまでの常識をまたもひっくり返す存在になりました。SNS上では、画像生成AIの話題はNano Banana Pro一色になりました。その潜在能力の高さから、毎日のように新しい使い方の発見が続いています。なにより、画像生成AIの大きな壁であった同じキャラクターを出し続けられない「一貫性の問題」を完全に乗り越えたモデルと言えます。そのすごさをご紹介します。

参考：ASCII.jp：実在感が恐ろしいレベル　画像生成AIの常識をひっくり返した「Nano Banana Pro」 (1/4)

今回はさぞかし描きづらいだろうと思われる絵をどこまで意図通りに生成してもらえるか、試してみることにしました。
やっぱり自分の手ですごさを実感してみたい。

そして生成された絵をさらにVeo 3.1で動画にしてもらいます。Google繋がりです。

刀削麺を食べるメデューサ

生きていてメデューサの実物を見ることはないですし、しかも、メデューサが麺類を食べている姿を見ることなんて創作の世界でもそうそうないわけです。

人間が見る機会の少ないものはAIだって学習する機会が少ないはず。

ということで、刀削麺を食べるメデューサを描いてもらうことにしました。
刀削麺って、たまに無性に食べたくなる。

今回はGeminiの参照能力も試したいため、元絵を用意してみました。これは手で描いたものです。

そして、プロンプトは以下です。

Medusa eating knife-cut noodles

日本語訳すると「刀削麺を食べているメデューサ」です。刀削麺は英語でknife-cut noodlesだそうです。

普段Geminiを使っている体感としては日本語のままでも問題なさそうですが、今回は英語にしておきました。

生成された画像は以下です。

すごい。

元絵をかなりきっちり参照してくれている。
蛇の顔の位置や舌も再現度が高い。

しかも端に書いた「刀削麺」の文字もバッチリ。
日本語の描写性能の向上はよく話題となりますが、その通りですね。

この画像を参照した上でさらにVeo 3.1で動画にしてみました。
プロンプトは画像と同様の「Medusa eating knife-cut noodles」です。音声はなしです。

これも素晴らしい。

元の静止画が全く崩れずにちゃんと刀削麺を食べている。

蛇の動きも滑らかでキモくて良い。

いきなり登場したナイフがおどろおどろしさを加えていい感じです。

コンタクトレンズを目にはめるポリュペーモス

より難易度が高そうなものを描かせてみることにします。

ということで、今度はポリュペーモスを描いてもらうことにします。

目にすることがなさそうなシチュエーションということで、ポリュペーモスにコンタクトレンズをはめてもらうことにしました。

ということで元絵は以下です。

プロンプトは以下です。

Polyphemus putting on a large contact lense in a clean men's restroom

日本語訳すると「きれいな男子トイレで大きなコンタクトレンズをはめるポリュペーモス」ですね。
lenseをスペルミスしてしまっていることに後から気づきましたが（正しいのはlens）、出来が気に入ったのでいったんこちらのままで。

生成された画像は以下です。

レイアウト的にはかなり元絵が生かされています。

ポリュペーモスについては元絵との差分が大きいですが、元絵の方が一般的なポリュペーモスのイメージとかけ離れすぎているだけですかね。

なんにせよ、かなり高精度で反映されています。

さらにVeo 3.1で動画にしてみます。
プロンプトは今回も画像と同様の「Polyphemus putting on a large contact lense in a clean men's restroom」です。
音声はなしです。

コンタクトレンズが位置的にちゃんとはまっていない、ですが、オブジェクトの崩れもなく、自然で、かなり意図通りです。

満員電車から降りてくるスーツ姿のたくさんの魚

最後です。

こちらも目にすることがなさそうなシチュエーションということで、スーツを着た魚が満員電車から降りてくる光景です。

元絵は以下です。

プロンプトは以下です。

Many fish in suits getting off a crowded train

日本語訳すると「混雑した電車から降りてくるスーツ姿のたくさんの魚」ですね。

生成された画像は以下です。

こちらも元絵がかなりきっちり用いられています。
魚の配置が元の線の通りです。

さらにVeo 3.1で動画にします。プロンプトは今回も画像と同様で「Many fish in suits getting off a crowded train」としますが、せっかくなので音声をつけてみました。

結果は以下となります。

すでにドアが開いている状態を参照画像にセットしたからか、たまたまか、参照画像が最終フレームとなりました。

音声も、ドアが開くところや歩行音はぴったりです。その後の音も、なんとなく全体に適している気がしないでもない、ですかね。

動いていない魚がいたり、ドアをすり抜けているように見えたり、不自然なところはいくつもありますし、人も混ざってはいますが、全体としてはキャラクターたちの動きがきちんと描かれています。

こんな雑多で現実的じゃない絵でも、ここまで見事に動画にしてくれるのですね。

最後に

細かい部分を見ればまだいくつも気になる箇所はあるのでしょうが、指示に対して大きくずれない静止画、動画がここまで生成できるというのは、驚きです。

最近は他のモデルでの画像生成、動画生成も一年前と比べると格段に精度が上がっていますが、そのさらに上を行っていると感じました。

来年の終わり頃にはどうなっているのだろうと想像するだけで楽しい。

宣伝

SupershipのQiita Organizationを合わせてご覧いただけますと嬉しいです。他のメンバーの記事も多数あります。

Supershipではプロダクト開発やサービス開発に関わる方を絶賛募集しております。
興味がある方はSupership株式会社採用サイトよりご確認ください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up