OpenAIの動画生成AI「Sora」の実践メモ
作成日:2025年1月21日
(元記事の作成日を記載しています)
本記事について(2025年5月追記)
この記事は2025年1月に作成したもので、Soraの機能や利用状況について、現在の情報(2025年5月時点)とは異なる部分がある可能性がございます。
元々は社内の同僚に向けてSoraの魅力や使い方を紹介する目的で書き始めたもので、今回、社外にも公開できる運びとなりました。そのため、過去に書き溜めていた記事を順次アップロードしている次第です。当時の熱量そのままにお届けできればと思いますので、少し前の情報であることをご留意の上、お読みいただけますと幸いです。
はじめに
2024年12月9日、ついにOpenAIの動画生成AI「Sora」が一般提供開始されましたね!ChatGPT有料ユーザーであれば利用可能ということで、早速触ってみました。
私がSoraに強烈に惹かれたのは、こちらの動画がきっかけです。
【最新AI】SORAで東京を再現してみた (YouTube)
(作成元: BT_ASMR 更新日: 2024年12月28日)
まるで異世界のような、圧倒的なクオリティに衝撃を受けました。
この記事では、Soraを実際に使ってみた感想、動画生成のプロセス、試行錯誤した点、そしてSoraの可能性についてまとめていきます。
目次
参考にした情報
Soraを触り始めるにあたり、以下の書籍を参考にしました。Kindle Unlimited対象だったので、気軽に読めてチュートリアルとして非常に役立ちました。
動画生成AI「Sora(ソラ)」: OpenAI Sora 完全攻略ガイド (Amazon)
Soraと従来の動画生成技術の違い
Soraがどのように動画を生成しているのか、従来の技術と比較しながら見ていきましょう。
アプローチ | 従来技術 | Sora (および Runway Gen-3など) |
---|---|---|
基本的な手法 | 既存の映像素材の編集・加工、画像シーケンスのアニメーション、GAN(敵対的生成ネットワーク)を用いた限定的な生成。 | 拡散モデル(Diffusion Models)とTransformerモデルの組み合わせにより、テキストプロンプトから直接、高品質な動画を生成。 |
素材への依存 | オリジナルの映像素材が必要な場合が多い。 | 既存の映像素材に依存せず、完全に新しい動画を生成可能。 |
表現の限界 | 複雑な動きや長時間の安定したシーン生成に課題。 | テキストプロンプトに基づいて、多様で複雑なシーンや動きを表現可能。 |
Soraを支えるコア技術:拡散モデルとTransformerモデル
1. 拡散モデル(Diffusion Models)
拡散モデルは、ノイズ(ランダムな情報)から徐々に意味のあるデータを生成していく手法です。Soraでは、このモデルを用いて動画を生成します。
- フォワード拡散過程: 元の動画に徐々にノイズを加え、最終的に完全なノイズ状態にします。
- リバース拡散過程: ノイズ状態から段階的にノイズを除去し、テキストプロンプトに合致する動画を復元していきます。この過程で、Soraは学習データ(大量の動画とテキスト)に基づいて、高品質な動画を生成する能力を発揮します。
2. Transformerモデル
Transformerモデルは、自然言語処理で大きな成功を収めたモデルで、系列データを効率的に処理する能力に長けています。Soraでは、このTransformerモデルが以下の重要な役割を担っています。
- テキストプロンプトの理解: 入力されたテキストプロンプトを解析し、その意味内容を把握します。
- 動画データの表現: 動画を時空間的なパッチ(小さな領域)に分割し、それぞれの情報をエンコードします。
- テキストと動画の関連付け: エンコードされたテキスト情報と動画情報を関連付け、リバース拡散過程を制御し、プロンプトに忠実な動画生成を導きます。
簡単に言えば、Transformerモデルが「指示書(プロンプト)」を理解し、拡散モデルがその指示に基づいて「絵(動画)」を描き出すイメージです。
Soraの料金体系
気になる料金ですが、OpenAIのヘルプセンターによると以下のようになっています(2025年1月21日時点の情報です。最新の情報は公式サイトをご確認ください)。
https://help.openai.com/en/articles/10245774-sora-billing-faq
- クレジット制: 動画生成にはクレジットが必要。
- ChatGPT Plusユーザー: 毎月1000クレジットが付与され、最大50本程度の動画が作成可能(標準的な場合)。
リラックスモードについて

私が試用した期間(2024年年末頃)は、サム・アルトマン氏からのプレゼントとして「リラックスモード」が無制限で利用可能でした!これは、サーバーの負荷が低い時に動画生成リクエストをキューに入れ、クレジットを消費せずに動画を作成できるモードです。
ChatGPT Proは、リラックスモードで動画を生成することができ、サイトのトラフィックが少ないときに動画をキューに入れて完成させることができます。リラックスモードは、ChatGPT Proアカウントのクレジットがなくなると開始されます。リラックスした動画にはクレジットは必要ありません。一般的に、リラックスした動画は優先動画よりも作成に時間がかかります。
(Sora ヘルプセンターより引用。2025年1月時点)
(2025年5月追記)
上記の年末の期間限定措置とは別に、現在(2025年5月時点)では、ChatGPT Plusユーザーに対しても無制限の動画作成が標準で解放されているようです。これにより、クレジットを気にせずにSoraを試せる機会が増えたのは嬉しいですね。
このおかげで、予想以上に多くの動画を試作できました。
Soraで動画生成に挑戦!
1. Soraのサイトにアクセス
https://sora.com/library からアクセスし、動画生成を開始します。
2. まずは簡単なプロンプトでお試し出力
白いウサギ ぬくぬく 赤ちゃん かわいい 眠そう
本格的な動画作成チャレンジ
目標
ホラー短編動画: 過去に見た悪夢を再現する。
お試しもできたので少し長めの動画を作ろうと思います。
題材は悩みましたが夢ならば完全オリジナル!ということでよく覚えている「悪夢」をベースにした動画作成について取り組んでみました。そのプロセスを詳しくご紹介します。
完成動画
お借りした音源: https://www.music-note.jp/bgm/horror.html 「エスケープ」
1. シナリオプロット作成(人力)
まず、頭の中にある悪夢の情景を詳細に書き起こしました。
大まかな流れとしては、
「夜のアーケード商店街を歩く青年がコインを落とし、それを拾おうとすると不気味な老婆と遭遇。老婆が突然追いかけてきて、青年は必死に逃げるが追いつかれそうになり、シャッターが閉まりかける絶望的な状況で目が覚める。しかし、目覚めた場所にも不穏な余韻が残る」
というものです。
主な登場人物・要素:
- 青年: 黒髪ウェーブ、パーカー姿の美青年。
- 老婆: 小柄で白髪、不気味な笑顔から鬼のような形相に変わる。
- 舞台: 夜の閑散とした日本のアーケード商店街。
- キーアイテム: 見覚えのないコイン。
(余談:当初はスニーカーのCMにする案もありました。)
2. シーンごとのプロンプト作成
参考書籍や下記サイトを元に、シーンごとに詳細なプロンプトを作成しました。
参考サイト:https://www.promptingguide.ai/jp/models/sora
プロンプトの構成は以下の通りです。
[シーンNo]
[構成要素(日本語)]
* 被写体・アクション:
* カメラワーク:
* 環境:
* 照明・色合い:
* 時間経過:
[日本語プロンプト文章]
[Key Elements (English)]
* Subject/Action:
* Camera Work:
* Environment:
* Lighting/Color:
* Time Flow:
[英語プロンプト文章]
プロンプト例:Scene 5 老婆が口を大きく開く
[シーンNo] Scene 5
[構成要素(日本語)]
* 被写体・アクション: 老婆は目を見開き、口を横に大きく開く。不自然なくらい口が裂けたように広がり、黄ばんだ歯や抜け落ちた歯がむき出しになる。
* カメラワーク: カメラ位置は老婆の正面アップ(シーン4と同じアングル・距離感を維持)。レンズは望遠寄り(70mm~100mm程度)。固定カメラで、老婆の顔の表情変化をひたすらアップで捉える。
* 環境: 八百屋のシャッター前は暗く、埃まみれの木箱が見切れる程度。老婆以外の動きはほぼない。
* 照明・色合い: 下からの暖色光で口内と歯が際立ち、上方の蛍光灯の青白い光が額や髪の白さを強調する。
* 時間経過: 数秒かけて老婆が不気味に笑い始めるような演出で、恐怖感を高める。
[日本語プロンプト文章]
「カメラは先ほどのアップ位置から微動だにせず、老婆の顔をフレームいっぱいに映す。彼女の目がさらに大きく開き、まるで横に裂けるように口を広げると、黄ばんだ歯や抜けた歯がむき出しになり、ぞっとするような笑い声が小さく聞こえる。下から当たる弱い暖色の光が口内を強調し、上の蛍光灯が老婆の白髪を冷たく照らしているため、二色の光が怪奇なコントラストを生む。」
[Key Elements (English)]
* Subject/Action: The old woman’s eyes widen, and her mouth stretches unnaturally to the sides, revealing stained or missing teeth.
* Camera Work: Angle: Same frontal close-up as Scene 4, maintaining distance. Lens: Telephoto (70–100mm). Movement: Fixed, capturing the old woman’s facial distortion in extreme detail.
* Environment: The produce stall’s shutter looms in the dark background, with only dusty crates partially visible.
* Lighting/Color: Warm under-light accentuates her open mouth and teeth, while a cool fluorescent glow from above highlights her white hair and forehead.
* Time Flow: The transformation takes a few seconds, amplifying the horror as she begins a subdued but unnerving laugh.
[英語プロンプト文章]
“The camera remains fixed in the close-up position, filling the frame with the old woman’s face. Her eyes widen further, and her mouth stretches sideways, exposing yellowed and missing teeth. A faint, chilling laugh emerges as warm light from below emphasizes the inside of her mouth, while the cool fluorescent overhead casts a stark glow on her white hair, creating a disturbing contrast.”
3. ストーリーボードの活用
上記の構成要素と英語プロンプトをSoraに入力し、まずは静止画としてのストーリーボードを生成してもらいました。この段階でイメージと大きく異なっていなければ、そのまま動画生成に進むと意図した映像になりやすかったです。
生成されたストーリーボードの例(テキスト記述)
カメラは老女の顔をフレームいっぱいにクローズアップする。彼女の肌はしわくちゃで青白く、表情は強烈だ。目は大きく見開かれ、驚きと悪戯が混ざったような輝きを放っている。口は引き伸ばされたような笑みを浮かべ、黄ばんだ歯、折れた歯、欠けた歯が見える。下からの暖かい光が彼女の口の中を不気味に照らし、上からの冷たい蛍光灯の光が彼女の白い髪を際立たせ、不穏な雰囲気を醸し出している。彼女の目はさらに大きく見開かれ、光と影が顔を戯れさせながら、かすかな冷ややかな笑い声が響く。
4. プリセット機能の設定
動画全体の世界観を統一するために、プリセット機能で詳細な設定を行いました。
Theme: Nightmare Urban Chase
A tense, surreal pursuit in a deserted Japanese arcade at night, blending horror elements with a sleek, empowering feel for a sneaker-focused story.
Color: Dominantly cool blues with flickering fluorescent whites. Occasional warm spots from aging bulbs or neon signs add stark contrast.
Camera: Handheld digital cinema (e.g., ARRI Alexa Mini, RED) for dynamic, urgent movement. Wide-angle shots amplify claustrophobia, while close-ups capture terror and resolve.
Film Stock: Digital Kodak Vision3 emulation with subtle grain or a gentle film LUT, lending a gritty, dreamlike quality.
Lighting: Primarily low-key. Unstable fluorescent tubes cast sudden flashes and deep shadows. Sparse practical bulbs highlight pivotal scares and tension.
Vibe: Menacing and urgent, steeped in psychological dread yet undercut by a stylish edge, suiting a narrative of swift escape and empowerment.
Protagonist (Kakeru): A strikingly beautiful young man with shoulder-length, wavy black hair, pale skin, dark eyes, and naturally red lips. Dressed in a gray hoodie (hood raised), jeans, and sleek sneakers, exuding both vulnerability and hidden strength.
Environment (Arcade Shopping Street):
- Ceiling: A long, arched cover with sporadic, flickering fluorescent fixtures.
- Floor: Worn tiles, cracked and dotted with debris, faintly reflecting sudden bursts of light.
- Background: Rows of shuttered storefronts—some rusted or crooked—and intermittent neon signs. A half-closed exit shutter intensifies the claustrophobic, trapped atmosphere.
日本語訳(要約)
- テーマ: 悪夢のアーバンチェイス(夜の日本のアーケード街でのシュールな追跡劇、ホラーとスタイリッシュさの融合)
- カラー: クールな青主体、蛍光灯の白、時折暖かい光でコントラスト。
- カメラ: ハンドヘルドデジタルシネマ(ARRI Alexa Mini, RED等)、ダイナミックな動き。広角で閉所恐怖症を、クローズアップで恐怖と決意を。
- フィルムストック: デジタルKodak Vision3エミュレーション、微妙なグレイン、硬質で夢のようなクオリティ。
- 照明: ローキー主体。不安定な蛍光灯、まばらな電球で恐怖と緊張を強調。
- 雰囲気: 威嚇的で切迫感のある心理的恐怖、スタイリッシュなエッジ。
- 主人公(カケル): 肩までのウェーブ黒髪、色白、黒い瞳、赤い唇の美青年。グレーパーカー(フード)、ジーンズ、スニーカー。弱さと強さを併せ持つ。
- 環境(アーケード商店街): アーチ型天井、点滅する蛍光灯。古びたタイル床。シャッターの閉まった店、ネオンサイン。半分閉まった出口シャッターで閉塞感を強調。
5. Soraの各種機能を試す
作成した動画をベースに、さらにSoraの編集機能を使ってみました。
blend前(前半) ![]() |
blend前(後半) ![]() |
blend後 ![]() |
Remix前 ![]() |
Remix後 ![]() |
Loop後 ![]() |
*アップロード制限のため断念
6. 最終編集
最終的に16個のシーンをSoraで生成し、DaVinci Resolveを使ってカット編集、音響効果を加えて完成させました。
Soraの苦手そうなこと(2025年1月時点の所感)
今回の動画作成を通して、現時点でのSoraが苦手そうだと感じた点です。
-
同一動画内での急なカメラアングル切り替え:
1つのプロンプトで複数のカメラアングルを指示すると、意図通りにならないことがありました。シーンごとにプロンプトを分ける方が安定しそうです。 -
「振り返る」ような複雑な動作:
特に「カメラに向かって振り返る」といった動作は、Soraが混乱しやすい印象でした。 -
複数の人物が登場する際の複雑なインタラクション:
被写体が複数になり、複雑な動きや関係性を持たせようとすると、破綻しやすかったです。
考察:
被写体の基本的な方向指示(例:「カメラに向かって走る」「カメラに背を向けて走る」)はある程度制御できましたが、「カメラに向かって振り返る」といった、より複雑な動作や向きの変更はSoraが意図を解釈しにくい印象でした。このあたりは、プロンプトで具体的なカメラワーク(ドリーインしながら被写体がターンするなど)やアングルの変化を細かく指示するスキル、あるいは今後のSoraのアップデートによって改善されるかもしれません。映像関連の専門用語の知識を深めることも、より的確な指示を出す上で有効だと感じました。
まとめと感想
Soraを使ってみて、テキスト入力だけでこれほどハイクオリティな動画が数時間で生成できてしまうことに、改めて衝撃を受けました。
良かった点:
- 圧倒的なクオリティ: 細部の描写や光の表現など、目を見張るものがあります。
- 生成速度: アイデアをすぐに映像化できるスピード感は素晴らしいです。
- 創造性の拡張: 映像制作の知識が浅くても、アイデア次第で多様な表現が可能です。動画制作の補助ツールとしてだけでなく、個人の創作活動の幅を大きく広げてくれる可能性を感じます。
課題・今後の期待:
- プロンプトの技術: 意図した通りの映像を出すには、まだ試行錯誤とプロンプトエンジニアリングのスキルが必要だと感じました。
- 長編動画の制作: 長編動画を作るには、シーンごとに出力して編集する手間や、一貫性を保つための工夫が必要です。
- 細部のコントロール: 現状では完全にコントロールできない部分もあり、今後のアップデートに期待したいです。
今後の学習ポイント:
やはり動作やアングルなどプロンプトでの指示で一般的な表現だけだと難しい場面も多いと感じました。なので個人的にはより高度な映像表現を目指すなら、以下のような知識を深めると良さそうと感じました。
- カメラの種類(レンズ特性など)
- カメラワーク、アングル
- 映像エフェクト
- 映画のショット構成
Soraはまだ発展途上の技術ですが、そのポテンシャルは計り知れません。今後の進化が非常に楽しみです!
この記事が、Soraに興味を持っている方や、これから触ってみようと思っている方の参考になれば幸いです。