どうも、カーブミラーです。
今回は、OpenAIからSora 2のPromptガイドが出ましたので、ご紹介します。
本記事は、ChatGPT(Plus版)
で行なっております。あしからず。
ChatGPT等の動作状況を知らせる
OpenAIのステータスページ。
OpenAIステータス
こちらも載せますね。
ChatGPTが使えない?ログインできない・反応しない原因やエラー時の対処法を解説
著作権法については
こちらを参照するのが
良いのではないかと。
文化庁レポートをもとにした
著作権法についての動画(約20分)
かいちのAI大学 【警告】ChatGPTの画像生成は危険です...【4o Image Generation】
まずは、【ニュース】です。
OpenAIは
ChatGPTで
週に8億人の
アクティブユーザーを
抱えています。
そんなOpenAIが
今朝深夜にライブ配信しました。
昨日(2025/10/06)書いた
DevDay2025を開催した
その模様です。
新発表まとめ
①Apps Inside ChatGPT
チャットで他アプリ操作
②Agent Builder
Dify的なアプリ
③新規API公開
Sora2など
④Codex正式公開
たいした興味もないのですが、
Sora2 APIは、
ウォーターマークが
出ないらしいです。
ChatGPT Proプランでさえ、
出しているのに。
なお、日本では使えないものも
あるという話があります。
私は、使いませんけども🤣
さて、
先日のSora 2の招待コードの
リレーか途切れたようで
困っている方がおられるようです。
つまり、
すべてのコードが使われてしまった、
ということなのでしょうね。
余っていらっしゃる方、
この記事のコメント欄に
記述して、新たなリレーを
お願いしたいと思います🙇
では、【本題】です。
今回は、
OpenAIから
Sora 2のPromptガイドが
出ましたので、ご紹介します。
OpenAI:Sora 2 Prompting Guide — Crafting a successful video prompt
ここには、
開発者向けの内容も含まれるため、
その部分をカットして
ここに出します。
(GPT-5翻訳&まとめ)
効果的なビデオプロンプトの作り方
プロンプトを始める前に
プロンプトは、まったくイメージのない撮影監督に演出を説明するようなものです。詳細が足りなければモデル側が補完してしまうため、意図と核心は明確に伝える必要があります。ただし、すべてを細かく指定しすぎると創造性が抑制されるため、自由度を残す余白も有効です。目標に応じて詳細度を調整してください。
同じプロンプトを複数回実行すると異なる結果が出ることがあります。これを許容し、最良の結果を選ぶ手法も有用です。
プロンプト構成の基本要素
プロンプトは「ストーリーボードのスケッチ」に相当する説明を含むべきです。以下の要素を意識して構成します:
- 視点・構図:広角、クローズアップ、俯瞰、アイレベルなど
- 被写体:キャラクター、オブジェクト、背景、衣装、性格的特徴
- アクション:動きのビート、身振り、タイミング
- 光と色:光源、色調、影の質感、カラー・パレット
- 雰囲気/スタイル:映画的、ドキュメンタリー風、手描き風など
- 台詞・音声(ある場合):短く自然な会話形式、シーンに応じた間
複数カットを含めたい場合は、プロンプトを「カット単位」で構成します。各カットに対して、構図・動作・光・時間の記述を分けて書くと整理しやすくなります。
シンプルなプロンプト例(日本語訳例)
90年代風ドキュメンタリー形式で、老スウェーデン人男性が書斎に座り、「私は若い頃のことを今でも覚えている」と語る。
- 「90年代ドキュメンタリー風」というスタイル指定
- 「老スウェーデン人」「書斎」という被写体・設定
- 会話のセリフを直接記述
このように、視覚要素・動作要素・セリフを含めて書くと、モデルはそれをもとに解釈して映像を生成します。ただし、細部(時間帯、衣装、表情、照明の方向など)が指定されていなければ、モデル側で自由に補完されます。
詳細指示を与える方法
映画的なルックや複雑な演出を狙う場合、以下のような構成要素を追加できます:
- 視点とレンズ指定(例:32 mm、被写界深度、フィルター)
- 彩度、グレーディング、ハイライト/シャドウの処理
- 光源の位置、強さ、拡散性、補助光の指定
- 被写体の衣装、質感、空間の小物などの具体性
- 動きのリズム、カット間の接続、カメラ移動のベクトル
これらを一つずつ加えることで、モデルはより精密な演出を再現できます。
動きと時間制御
動きを指示する際は1シーンに対して「カメラの動き」+「被写体の動作」の2要素に絞るのが安全です。アクションは「何歩歩く」「どのタイミングで止める」など、具体的な動作ビートで記述するとモデルが解釈しやすくなります。
例:
- 弱い: “Actor walks across the room.”
- 強い: “Actor takes four steps to the window, pauses, and pulls the curtain in the final second.”
照明と色の一貫性
照明と色彩指定が曖昧だと、複数カットを繋げたときに不連続感が出ます。光の性質(やわらかさ、拡散、方向)や色調の基軸(例:アンバー、クール系、ニュートラル)を明確に記述してください。
例:
“柔らかい窓光を主光とし、補助光として暖色のランプを配置。対照的に廊下からの冷色のリム光を加える。パレットはアンバー、クリーム、ウォールナット調。”
画像参照を使う
視覚要素をモデルに固定させたい場合、参考画像をプロンプトに添えると効果的です。画像は構図、衣装、配色、小物等に関して「アンカー」として機能します。文章的説明では曖昧になりやすい部分を画像で固定できます。
台詞と音声
発話があるシーンは、プロンプトの末尾に「台詞ブロック」を設けて明記します。登場人物名をラベル化し、交互に話す形式にすることでモデルがキャラクターを分離して処理しやすくなります。台詞はできるだけ簡潔にしてください。発話なしの場合でも、「遠景の環境音」「風の音」「軽いノイズ」などでリズムを与えると効果的です。
リミックス(再構築)による調整
初回で期待通りの結果が出ない場合、リミックス機能で調整していく方法が有効です。すでにうまくいっている部分を固定しつつ、問題がある部分だけを変えて再実行します。例えば:
- “同じ構図で、レンズを85 mmに変更”
- “同じ照明で、パレットをティール・サンド調に変更”
これにより既存の良い結果を保持しつつ、改善したい箇所だけを変えられます。もしプロンプトが不安定なら、動きをなくしたり、カメラ固定にするなどシンプル化してから再構築するのが有効な戦略です。
プロンプト構造のテンプレートと例
プロンプト構造案(日本語版)
【シーン描写】
登場人物、衣装、背景、天気、時間帯などを描写。
**撮影/構図**
カメラのアングル、ショットタイプ(広角、クローズアップなど)
**ムード・スタイル**
全体的な演出トーン(映画的/ドキュメンタリー風/幻想的など)
**動作**
- アクション 1:被写体の具体的動き
- アクション 2:別の動きまたは停止、変化する動き
**台詞**(ある場合)
- 人物1: “セリフ文”
- 人物2: “セリフ文”
例 1
スタイル:手描き風2D/3D混合アニメーション。テクスチャは筆タッチ風。暖色混じりの光と控えめなモーション。
古びた工房の中。棚には歯車や青写真が乱雑に置かれている。中央には小型ロボットがベンチに腰掛けており、ひび割れた金属板を修理している。雨が窓に打ちつける音が響く。
撮影/構図:
中望遠、被写界深度浅め、前景ぼかし
ムード・スタイル:穏やか、少しの緊張感
動作:
- ロボットが電球を軽くタップ → 火花が散る
- ロボットが慌てて落とし、手で拾い上げる
- 内部蒸気が“ふっ”と抜けて安堵感を示す
台詞:
ロボット: “もう少しで壊すところだった…”
例 2
スタイル:1970年代ロマンティック映画。35 mmフィルム風、ソフトフォーカス、温かいハレーション。
黄昏時、レンガの屋上に白いシーツが風で揺れる。フェアリーライトがほのかに光る。女性は赤いシルクのドレスで踊り、男性は傍らで手拍子を打つ。
撮影/構図:中広角、ゆっくりドリーイン
ムード・スタイル:ノスタルジック、暖かい
動作:
- 彼女が回転する → ドレスが舞う
- 彼が手を差し出す → 彼女と対面して踊る
台詞:
彼女: “見て、街までも踊ってるわ”
彼: “君が導くからだよ”
もっとも大切なことは
最初の部分。
意図と核心は明確に伝える必要があります。ただし、すべてを細かく指定しすぎると創造性が抑制されるため、自由度を残す余白も有効です。
これでしょうね。
そして、
きっちり自由度をなくして
Promptを書いても
GPTの特性上、
まったく同じには
ならない、ということを
忘れてはなりません。
みなさんの
作品制作の糧に
なれば、幸いです。
今回は、ここまで。
最後にふたたびお願いです。
先日のSora 2の招待コードの
リレーか途切れたようで
困っている方がおられるようです。
つまり、
すべてのコードが使われてしまった、
ということなのでしょうね。
余っていらっしゃる方、
この記事のコメント欄に
記述して、新たなリレーを
お願いしたいと思います。
どうぞ
よろしく
お願いいたします🙇