Gemini Omniとは?
Gemini Omniは、Google I/O 2026で発表された新しいマルチモーダルAIモデルファミリーです。
主に以下のような特徴を持っています ![]()
論理的で自然な映像を生成しつつ、全体の文脈や世界観を崩すことなく何度でも段階的に作品を編集できる
-
Veoの後継モデル
- 動画生成AI「Veo」の技術を内包し、Geminiの強力なマルチモーダル基盤と融合した最先端モデル
-
マルチモーダル生成
- テキスト、画像、動画、音声などの入力を組み合わせ、ハイクオリティな動画を生成
-
高度な世界理解と推論力
- Geminiの持つ歴史、科学、文化などの知識や、重力・流体力学といった物理法則を直感的に理解している
- 単にリアルなだけでなく現実世界のロジックを反映した意味のある映像を生成
-
対話型の操作性
- まるでチャットで会話をするような感覚で、自然な言語による指示で簡単に動画を作成・編集
Gemini Omniでできること
-
自由な素材からの動画生成
- テキスト、写真(最大5枚)、動画、音声を組み合わせて、ゼロから動画を作成
-
マルチターン(対話形式)での動画編集
- 前の文脈を保ったまま、段階的に動画をテキスト指示だけで修正できる
- (例)人物の入れ替え、照明の調整、背景の変更、カメラアングルの調整など
-
リファレンス(参照)による高度な編集
- 別の動画の動きやポーズを画像内のキャラクターに適用できる
- 手書きのスケッチを動きのガイドラインにしてリアルな動画を作成できる
-
AIアバターの活用
- ユーザーの写真からデジタル上の「AIアバター」を作成
- 自分そっくりの見た目や声を持ったキャラクターを動画に登場させることができる
-
複雑な概念の視覚化
- 持ち合わせている科学的知識などを活かして、難しいアイデアや概念をわかりやすい解説動画(クレイアニメ風など)として生成できる
Gemini Omniのプロンプトと生成例
ゼロからの生成
鬱蒼とした森の中のアンティークなテーブル。
クリスタルでできたティーポットから、光を反射する黄金色の紅茶がティーカップに注がれる様子。
紅茶が注がれる際の流体力学的な動きと、表面の波紋、立ち上る湯気を極めてリアルに表現して。
現実世界のように、紅茶の注がれる様子・音が表現されています。
リファレンスの追加
紅茶が注がれるタイミングに合わせて、
このスケッチの鳥を実写化してテーブルに舞い降りさせて。
ゼロから生成した動画の世界観を保ちつつ、この適当な鳥が、動きも自然に実写化されています ![]()
質感の表現の幅
地球が宇宙を背景に回転している様子を地球全体が映るアングルで。
回転するうちに地球と背景の描写スタイルを変化させて。
実写の地球→8bitアニメっぽい地球→クレイアニメっぽい地球→サイバーっぽい地球
(参考画像を添付)
参考画像の質感の再現+質感が変わる瞬間の切り替わり方もそれぞれの素材に合わせて変えてくれています ![]()
音楽もそれぞれの素材の重量感にあったものをつけてくれています
Gemini Omniで生成した感想
これまでのVeo 3.1よりも細かく調整できるのと、指定の質感にあった物理的なリアルさが出せます ![]()
精密な動画を長いプロンプトいらずで作成できるので、ぜひ試してみてください!
参考
