はじめに
こんにちは!Yumekawa-chanです。
私はこの半年間、Google AI Ultraプラン(月36,000円)に課金して、Googleの動画生成AIモデルのVeoで動画を作り続けてきました。生成した動画はトータルで数千本にのぼり、恐らく日本でもVeoを触り倒したほうだと思います。
そんな中、2026年5月のGoogle I/Oで新しい動画生成モデル Gemini Omni Flash が発表されました。これで、Google系の動画生成モデルは主に3つ揃ったことになります。
- Veo 3.1 Quality
- Veo 3.1 Fast
- Omni Flash
ただ、いざ触ってみるとこんな疑問が出てきませんか?
- Veo 3.1のQualityとFast、結局どう使い分けるの?
- Omni Flashって何が新しいの?Veoとどう違うの?
私もずっとこの疑問を抱えていたので、3モデルに同じプロンプトを入力して、出力を見比べる形で定性的にレビューしてみました。
こんな方にぜひ読んでほしいです👇
- 動画生成AIに興味がある
- 新登場のOmni Flashが気になっている
- Google AI Ultra(月36,000円)に課金する価値があるか知りたい
- AI動画生成、結局どれが一番強いのか知りたい
少しでも参考になれば嬉しいです🤗
今回比較する3モデルを簡単に紹介
本題に入る前に、3つのモデルを軽くおさらいしておきます。
| モデル | 立ち位置 | 強み | 最大尺 | クレジット消費 |
|---|---|---|---|---|
| Veo 3.1 Quality | Veo系の最高画質モード | 画質・物理表現がキレイ | 8秒 | 100 |
| Veo 3.1 Fast | Veoの軽量・高速モード | スピードとコスパ | 8秒 | 10 |
| Omni Flash | 2026年5月発表のモデル | 画像・動画・音声からも作れる | 10秒 | 15(8秒なら12) |
ちなみにOmni Flashは、Google公式によると 重力・運動エネルギー・流体力学への理解が向上 したとのこと。水や動きのあるシーンで真価を発揮するモデルです。
(参照:Google公式ブログ)
検証方法
3つのモデルに同じプロンプトを入れて、出力を見比べるというシンプルな方式で比較します。
ちなみにプロンプトはGeminiではなく、Claudeに考えてもらいました🤣
また動画は方向性を真逆にした2本を選びました。
- プロンプト① は「人物・室内・音声・日本語の文字」などの要素を検証
- プロンプト② は「自然・水・光・動き」などの物理表現を検証
プロンプト①:ラーメン屋のカウンター
夜の新宿の路地裏にある小さなラーメン屋。木製のカウンター越しに、白い和服にタオルを首にかけた40代の日本人男性店主が、湯気の立つ醤油ラーメンの丼を両手で差し出す。手前に客のシルエット。背後の壁には赤いネオンサインで「らーめん」と書かれた文字が光っている。店主はカメラを見て「お待たせしました」と一言、自然な日本語で発声する。カメラは客の肩越しから店主の顔へゆっくりとドリーイン。湯気がふわりと立ち上る。BGMなし、店内のざわめきと油の跳ねる音だけが背景に流れる。フィルムルック、暖色照明。
プロンプト②:渓流のニジマス
浅瀬の透明な渓流。水深は30cmほど。銀色に光るニジマスが3匹、群れになって上流へ向かってゆっくりと泳いでいく。水面から差し込む日光が屈折し、川底の小石に揺らめく光のパターンを描く。魚が尾びれを振るたびに小さな水しぶきと気泡が舞う。カメラは魚の横を並走するようにスムーズに横移動。背景音は流れる水の音と遠くの小鳥のさえずりのみ、BGMなし。自然光、ナショナルジオグラフィック風の映像。
どこを見比べるか
以下のポイントで見ていきます👇
- 指示通りの絵が出ているか(プロンプトの再現度)
- 水や湯気の動きが自然か(物理表現)
- 「らーめん」の文字がちゃんと読めるか(テキスト描画)
- 魚の動きは自然か
- 音声がそれっぽく聞こえるか
生成の前提
- すべて Google Flow 上で生成
- 各モデルに同じプロンプトを投入
- 尺は各モデルの上限(Veo 3.1系:8秒 / Omni Flash:10秒)
それでは、実際の結果を見ていきましょう!👀
結果①:ラーメン屋のカウンター
Veo 3.1 Quality
Veo 3.1 Fast
Omni Flash
比較コメント
結論から言うと、3モデルとも構図やシーンの大筋はプロンプト通りに再現できていました。ただ、細部を見ていくと明確に差が出ます。
テキスト描画
ここが最も差の出たポイントです。Veo 3.1のFast・Qualityはどちらも看板の「らーめん」を再現できておらず、実在しない崩れた文字が描かれていました。一方でOmni Flashは「らーめん」を正確に描画できており、日本語テキストの精度は頭一つ抜けています。
セリフ(音声)
Veo 3.1のFast・Qualityは、指示にない「ね」が語尾について「お待たせしましたね」と発話していました。対してOmni Flashは指示通り「お待たせしました」と正確に発話できています。
画質・発色
画質は Fast ≦ Quality < Omni Flash の順でした。Veo系(特にFast)は彩度がやや強く、色が少し誇張されている印象です。Omni Flashは実写に近い自然な発色で、最も違和感がありませんでした。
背景の描写
Veo系は遠景の描写が粗く、にじんだような“AIっぽさ”が残ります。この点でもOmni Flashが安定していました。
まとめ
FastとQualityの間に大きな差は感じられませんでしたが、総合的に見ると、このお題では Omni Flashが頭一つ抜けて優秀という結果になりました。
結果②:渓流のニジマス
Veo 3.1 Quality
Veo 3.1 Fast
Omni Flash
比較コメント
こちらも、3モデルとも指示通りのシーンを再現できていました。水の流れや光の屈折といった自然現象に、明らかな破綻は見られません。
ニジマスの動き
ニジマスの泳ぎ方は、どのモデルも自然でした。尾びれの動きや進むスピードに不自然さはなく、ここでは明確な差はつきません。
ニジマスの数
ただ、どのモデルでも泳いでいるニジマスの数が途中で増えたり減ったりする現象が見られました。これは魚が激しく動いたり、カメラの死角から出入りすることで起きているようです。この数の増減については、Omni Flashが最も違和感なく処理できていました。
彩度・色味
最も差が出たのは色の表現です。Veo系は彩度が強すぎる印象で、油絵のような塗り方に感じられました。対してOmni Flashは最も実写に近い自然な発色でした。
水の透明感
一方で、水の透き通り方についてはVeo系のほうが自然に見えるかもしれません。Omni FlashはややCGっぽさが残ります。
音声
音声はどのモデルも自然でした。水中にいるような"こぽこぽ"という水の音が聞こえ、映像との一体感がありました。
まとめ
このお題は、絵としての良し悪しが好みで分かれる結果になりました。個人的には彩度の自然なOmni Flashが一番好みですが、水の表現ではVeo系にも良さがあるため、あえて順位はつけません。
総評 : 結局どれを使えばいいのか
たった2本の検証ではありますが、総合的な完成度ではOmni Flashが最も優れているという印象を受けました。これは、Omni Flashが「品質」と「コスト」の両方で優れているためです。
- 品質:ラーメンの検証では、日本語の文字・セリフ・発色・背景のどれを取ってもOmni Flashが一番優れていました
- コスト:Omni Flashは8秒なら12クレジットで、Qualityの100クレジットと比べると約8分の1の安さです
- 尺:Omni Flashは最大10秒まで指定でき、Veo系(8秒)より長い動画を作れます
品質が高く、コストも安く、長い動画も作れるという点で、現状はOmni Flashを基本にして問題ないと感じています。特に、人物が映ったり人が話したりするシーンでは、Omni Flashを選ぶのが良いと思います。Veo系は日本語の文字もセリフも崩れてしまい、この点ではっきりと差が出ました。
Veo系の強み
とはいえ、Veo系が完全に劣っていたわけではありません。ニジマスの検証では、水の透き通り方はVeo系のほうが自然で、Omni FlashにはややCGのような質感が残りました。水や透明感を重視する映像では、Veo系のほうが向いている場合もありそうです。
QualityとFastはどう使い分ける?
今回の2本では、QualityとFastの間に明確な差は感じられませんでした。それでいて、クレジット消費はQualityが100、Fastが10と、10倍の開きがあります。
そのため、Veo系を使うのであれば、基本的にはFastで十分だと感じました。Qualityをあえて選ぶ理由は、少なくともこの2本の検証からは見つけられませんでした。
使い分けまとめ
| こんなシーン | おすすめ |
|---|---|
| 人物が映る・人が話す・文字が出る | Omni Flash 一択 |
| 自然・水の透明感を重視したい | Omni Flash / Veo系(好みで) |
| とにかく安く量産したい | Fast |
| 迷ったとき | Omni Flash |
最後にまとめると、迷ったときはOmni Flashを選んでおけば大丈夫だと思います。
Google AI Ultraは課金する価値があるのか
ここまで読んで、「月3万円超のプランって課金する価値あるの?」と気になった方も多いと思います。半年間Ultraプランを使ってきた立場から、正直な感想を述べます。
なお、Ultraプランは今月から値下げされ、月額32,000円になりました。とはいえ、依然としてかなり高額なプランであることに変わりはありません。
こんな人に向いている
結論から言うと、Ultraプランが向いているのは「動画をたくさん作る人」です。具体的には、次のような方だと思います。
- AI動画生成でお金を稼ぎたい人
- 動画を大量に量産したい人
- AI動画だけで長尺の映画のような作品を作りたい人
というのも、生成できる量がプランによって大きく違うからです。私の体感では、Proプランだと月に50本ほどしか作れませんが、Ultraプランなら月に2,500本ほど生成できます(※使うモデルによって変わります)。本格的に作り込むなら、Proプランではすぐに上限に達してしまいます。
個人利用にはおすすめしない
一方で、月額32,000円はやはりかなり高額です。この金額を余裕で回収できるビジネスを持っているなら、十分におすすめできます。
しかし、趣味の範囲で動画生成を楽しみたいだけなら、コスパは非常に悪いです。正直なところ、趣味のためだけに契約するのはおすすめしません。
まとめ
今回は、Google系の3つの動画生成モデルを、同じプロンプトで比較してみました。検証の結論を簡単にまとめると、次のようになります。
- 総合的な完成度では、Omni Flashが最も優れていた
- 特に、人物や会話、文字が出てくるシーンではOmni Flashが向いている
- 一方で、水の透明感などはVeo系のほうが自然だった
- Veo系を使うなら、クレジット消費の少ないFastで十分
- Ultraプランは高額なので、ビジネスで使う方には向いているが、趣味だけならおすすめしない
半年間Veoを触ってきましたが、Omni Flashの登場で品質も価格も一段良くなったと思います。これからAI動画生成を始める方の参考になれば嬉しいです。
長い記事になりましたが、最後まで読んでいただき、ありがとうございました🙌