2026年3月24日、OpenAIは動画生成AI「Sora」の終了を発表しました。アプリは4月26日に停止、APIも9月24日に完全終了となります。ローンチからわずか半年。ピーク時100万人のユーザーを集めたサービスが、1日100万ドルのコストに耐えきれず撤退する結末は、AI業界全体に衝撃を与えました。
この記事では、Soraが失敗に至った技術的・ビジネス的な構造を分析し、AIサービス開発者が学ぶべき教訓を整理します。
Sora終了のタイムライン
まず事実関係を整理します。
| 時期 | 出来事 |
|---|---|
| 2024年2月 | Sora初公開(研究プレビュー) |
| 2024年12月 | Sora 2として一般公開。ChatGPT Plus/Proユーザーに提供開始 |
| 2025年1月 | ユーザー数が約100万人でピーク |
| 2025年2月〜 | ユーザー数が急減。50万人を下回る |
| 2026年1月 | Disney との10億ドル提携を発表 |
| 2026年3月24日 | OpenAIがSora終了を発表。アプリは4/26停止、APIは9/24終了 |
| 2026年3月24日 | Disney が10億ドルの投資契約を撤回 |
注目すべきは、Disney側への通知タイミングです。Varietyの報道によれば、Disney・OpenAI両チームはSoraプロジェクトに関するミーティングを行い、その終了わずか30分後にSora終了の連絡を受けたとのことです。Sam Altman自身がDisney CEOのJosh D'Amaroに電話をかけ、「terrible(最悪の気分)」だったと述べています。
1日100万ドルのコスト構造
なぜ動画生成はこれほど高コストなのか
Soraの運用コストは1日あたり約100万ドルと報じられています。一部の分析ではピーク時に1日1500万ドルに達したとの推計もあります。一方、Soraのライフタイム収益はわずか210万ドル。数字だけ見ても持続不可能であることは明らかです。
では、なぜ動画生成AIはここまでコストがかかるのでしょうか。拡散モデルの推論プロセスから具体的に見ていきます。
拡散モデルの推論コスト構造
Soraのアーキテクチャは、Diffusion Transformer(DiT)をベースとしています。動画生成の推論で何が起きているかを分解すると、コストの本質が見えてきます。
まず、入力となるノイズテンソルのサイズを考えます。1080p(1920x1080)の動画をlatent space上で処理する場合、空間方向に8倍、時間方向に4倍のダウンサンプリングがかかるとすると、10秒・24fpsの動画のlatentテンソルは (60, 240, 135) 程度のサイズになります。これに対して、デノイジングステップごとにTransformerの順伝播が走ります。
コストを左右する3つのパラメータは以下の通りです。
- デノイジングステップ数: 品質を担保するには最低30〜50ステップが必要です。ステップ数を半分にすれば推論時間も半分になりますが、動画の時間的整合性が崩壊しやすくなります。Soraは品質重視で50ステップ前後を使っていたと推定されます
- Attention計算のスケーリング: DiTのSelf-Attentionはトークン数の2乗に比例する計算量を持ちます。動画のlatentトークン数は画像の数十倍〜数百倍になるため、Attention計算だけで画像生成の100倍以上のFLOPsが必要です
- Classifier-Free Guidance(CFG): テキスト条件と無条件の2回の順伝播を行うため、実質的に計算量が2倍になります。動画の場合、この倍化の影響が画像よりはるかに大きくなります
これらを掛け合わせた概算が以下です。
1動画あたりの推論コスト概算:
latentトークン数: 約200万(60フレーム x 240 x 135)
デノイジングステップ: 50回
CFGによる倍化: x2
Transformer順伝播回数: 50 x 2 = 100回
H100 1台の推論スループット: 約0.5〜1.0動画/分(10秒・1080p)
H100のクラウドコスト: 約3.5ドル/時間
→ 1動画あたりのGPUコスト: 約0.06〜0.12ドル(GPU単体)
ただし実際のコストにはネットワーク、ストレージ、冗長性、
キューイングによるGPUアイドル時間が加算される
Cantor FitzgeraldのアナリストDeepak Mathivanan氏の試算によれば、10秒のSoraクリップ1本の生成コストは約1.30ドルです。GPU単体の理論コストとの差は、オーケストレーション、キュー待ち時間中のGPU占有、ストレージI/O、安全フィルタの推論といったオーバーヘッドで説明がつきます。
| 指標 | テキスト生成(GPT-4級) | 動画生成(Sora級) |
|---|---|---|
| 1リクエストあたりのコスト | 約0.01〜0.10ドル | 約1.30ドル |
| 推論時間 | 数秒 | 数分〜数十分 |
| GPU占有パターン | リクエスト単位で解放可能 | 長時間連続占有 |
| スケーリング特性 | バッチ処理で効率化可能 | 動画長に比例してリニアに増加 |
1日100万ドルを逆算すると、1日あたり約77万本の動画生成に相当します。ピーク時100万ユーザーが1日平均0.77本生成する計算です。テキスト生成ではGPUの回転率が高く、1台で多数のリクエストを捌けます。動画生成では1リクエストが数分間GPUを占有し、かつステップ数の削減が品質劣化に直結するため、コスト最適化の余地が構造的に小さいのです。これが「ユーザーが増えるほど赤字が膨らむ」構造の本質です。
ユーザー50万人以下に減少した構造的原因
「デモ映え」と「実用性」の巨大なギャップ
Soraのデモ動画はSNSで何百万回も再生されました。しかし、実際に使い始めたユーザーの多くが直面したのは、デモとは異なる現実でした。
TechCrunchの報道によれば、ユーザー数はローンチ直後の100万人から急速に50万人を下回りました。「試して数本作って離脱」のパターンです。
単に「品質が悪い」という話ではありません。ユーザーの期待と現実の間に、いくつもの構造的なギャップがありました。
期待ギャップ1: プロンプトの意図が反映されない
デモ動画は、OpenAIが最適なプロンプトと最良の出力を選別して公開したものです。一般ユーザーが自分のプロンプトを入れると、全く異なる体験になります。
例えば「カフェでコーヒーを飲みながら本を読む女性。窓から午後の光が差し込んでいる」というプロンプトを入れた場合、以下のような問題が頻繁に発生しました。
- 手の指が6本になる、あるいはカップを持つ手が途中でカップにめり込む
- 10秒の動画の前半と後半で人物の服の色が変わる
- 「午後の光」を指定しても照明条件がフレームごとに揺れる
- 本のページが物理法則を無視した動きをする
同じプロンプトで10回生成しても、使える品質の出力は1〜2回です。プロの制作現場では、この「10回に1回のガチャ」は許容できません。1回の生成に数分〜十数分かかるため、10回試すだけで1〜2時間が失われます。
期待ギャップ2: 「部分修正」ができない
映像制作の現場では「90点の映像の残り10点を直す」作業が全体工数の大半を占めます。Soraにはこの「部分修正」の手段がありませんでした。
- 人物の手だけ直したい → 全体を再生成するしかない
- 背景の色を変えたい → 全体を再生成するしかない
- 5秒目のカメラアングルだけ調整したい → 全体を再生成するしかない
再生成すると、良かった部分まで変わってしまいます。After Effectsのようなレイヤー編集、Premiere Proのようなタイムライン編集、いずれの概念もSoraには存在しませんでした。
期待ギャップ3: 「遊び」にも「仕事」にも中途半端
結果として、ユーザーは2つの層に分かれましたが、どちらも離脱しました。
- カジュアル層: 「面白い動画を作ってSNSに投稿したい」→ 生成に数分待ち、品質のばらつきに疲弊して離脱。無料で即座に結果が出るTikTokフィルタのほうが体験として優れていた
- プロ層: 「制作パイプラインに組み込みたい」→ カメラワーク、ライティング、キャラクター表情の精密制御ができず、再現性もないため導入を断念
これが動画生成AIの「キャズム」です。技術デモとしては驚異的でも、ワークフローに組み込むには機能が足りず、趣味で遊ぶには待ち時間が長すぎる。明確なターゲットユーザーが不在のまま、継続利用する理由を提供できませんでした。
Disney 10億ドル提携が破談した背景
エンタープライズが求めたものとSoraが提供できたもの
Varietyの報道によれば、Disney との提携では、Disney、Marvel、Pixar、Star Warsから200以上のマスク処理・アニメーション・クリーチャーキャラクターを使って、ユーザーがプロンプトベースで動画を生成できる3年間のライセンス契約が想定されていました。
しかし、実際にはお金は一切動いておらず、契約は締結されていませんでした。
Disneyが想定していた組み込み箇所
Disneyのような映像制作企業の制作パイプラインは、大まかに以下の工程で構成されています。
- コンセプト・ストーリーボード → 2. プリビズ(プレビジュアライゼーション) → 3. アセット制作 → 4. アニメーション → 5. ライティング・レンダリング → 6. コンポジット → 7. 最終レンダリング
AI動画生成が最も価値を発揮できるのは、工程2の「プリビズ」です。ストーリーボードからラフな動画を高速に生成し、演出の方向性を検討する用途です。この段階では最終品質は不要で、「こんな感じの画が欲しい」を高速にイテレーションできることが重要です。
しかし、Disneyとの提携構想はプリビズどころか、消費者向けのプロンプトベース動画生成でした。つまり、一般ユーザーがミッキーやダースベイダーを使って動画を作れるサービスです。これは工程2ではなく、完成品に近い品質が必要な領域です。
「制御性」の具体的な意味
エンタープライズが求める「制御性」は、プロンプトで「こんな感じ」と指示する制御ではありません。以下のような精密な制御を意味します。
- カメラ制御: フレーム単位でのカメラ位置・角度・焦点距離の指定。ドリー、パン、ティルトの速度曲線の定義
- ライティング制御: 光源の位置、色温度、強度をシーン内で個別に設定。3点照明の各ライトを独立制御
- キャラクター制御: 骨格(リグ)ベースのポーズ指定。表情のブレンドシェイプを数値で制御。リップシンクの正確な同期
- 物理制御: 布や髪の物理シミュレーションのパラメータ指定。衝突判定の精度制御
既存のCGパイプライン(Maya、Houdini、Nuke等)は、これらをすべて数値パラメータとして制御できます。Soraはプロンプトという自然言語を入力とするため、「カメラを3秒かけて15度右にパンさせる」といった精密な指示を伝える手段がありませんでした。
| 要件 | Disneyが求めるもの | Soraが提供できたもの |
|---|---|---|
| キャラクターの一貫性 | 全フレームで正確なデザイン維持 | フレーム間でデザインが揺れる |
| ブランドセーフティ | 不適切な出力を100%排除 | 確率的に不適切な出力が発生する |
| 制御性 | フレーム単位のカメラ・照明・リグ制御 | プロンプトベースの大まかな指示のみ |
| 再現性 | 同じ入力から同じ出力 | 同じプロンプトでも毎回異なる結果 |
| パイプライン統合 | Maya/Houdini/Nukeとのデータ連携 | スタンドアロンアプリ、API提供のみ |
Disneyにとって、ミッキーマウスの耳の形やライトセーバーの色が1フレームでも崩れることは許容できません。しかし問題の本質は品質だけではなく、「品質を制御する手段がない」ことでした。CGパイプラインは品質を制御するためのツールですが、Soraはそのパイプラインのどこにも接続できないスタンドアロンのブラックボックスだったのです。
Deadlineの報道によると、Soraの終了に伴いDisneyは「The future is human」と声明を出し、AI動画生成への大規模投資から撤退しました。
競合はなぜ生き残れるのか
Soraが撤退する一方で、競合サービスは存続しています。この差はどこから来るのでしょうか。
Digital Appliedのレポートをもとに各社の戦略を整理します。
| サービス | 戦略 | 特徴 |
|---|---|---|
| Runway Gen-4 | プロ特化・高単価 | 時間的整合性とキャラクター一貫性で業界最高水準 |
| Pika 2.0 | SNSショートコンテンツ | Pikaswaps等のユニーク編集機能で差別化 |
| Kling 3.0 | コスト効率 | Soraの65%、Runwayの44%のコストで制作品質を実現 |
| Google Veo 3.1 Lite | 低価格API | 720pで$0.05/秒。Veo 3.1 Fastの50%以下 |
表面的な機能比較よりも重要なのは、各社の戦略がなぜ異なるかです。
Runwayは「プロの映像制作者が既存ワークフローの中で使うツール」として設計しています。高単価でもプロが支払う理由は、制作時間の短縮という明確なROIがあるからです。Gen-4ではMotion Brush(動きを塗りで指定)やカメラパス制御など、プロンプト以外の制御手段を充実させています。これは前述のエンタープライズが求める「制御性」への直接的な回答です。
Kling 3.0の戦略は、モデルの軽量化によるコスト優位です。Soraがパラメータ数とステップ数で品質を追求したのに対し、KlingはDistillation(蒸留)や量子化でモデルを圧縮し、少ないGPUリソースで同等の知覚品質を実現しています。コストがSoraの65%ということは、同じ予算で1.5倍の動画を生成できるということです。
Google Veo 3.1 Liteは、自社TPU基盤とVertexAIプラットフォームの垂直統合が競争力の源泉です。外部からGPUを調達する必要がないため、720pで$0.05/秒という低価格APIを提供できます。
Soraはこれらと対照的に、ChatGPT Plus/Proの付帯機能として幅広いユーザーに提供し、明確なターゲットもコスト最適化戦略も持たないまま巨大なインフラコストを負担し続けました。「最高品質の汎用動画生成」というポジショニングは、誰にとっても中途半端な結果を招きました。
AIサービス開発者への6つの教訓
Soraの失敗から、AIサービスを開発・運営するすべての人が学ぶべき教訓を整理します。特に、推論コストが高いAIサービスのコスト構造をどう設計すべきかについて、具体的なフレームワークを提示します。
1. ユニットエコノミクスを設計段階で検証する
AIサービスのコスト設計では、以下の4つの数値を事前に見積もる必要があります。
AIサービスのユニットエコノミクス検証フレームワーク:
(A) 1リクエストあたりの推論コスト
(B) 1ユーザーあたりの月間平均リクエスト数
(C) 1ユーザーあたりの月間収益(ARPU)
(D) インフラ以外のコスト(人件費、帯域、ストレージ等)の1ユーザーあたり配分
持続可能性の条件: C > (A x B) + D
Soraの場合、A = 1.30ドル、C = 20ドル(ChatGPT Plusの月額、ただしSora専用の追加収益ではない)です。C / A = 約15本。ユーザーが月15本以上の動画を生成した時点で赤字です。実際の問題はさらに深刻で、月額20ドルはChatGPT Plus全体の料金であり、Soraだけに配分できる収益はその一部に過ぎません。仮に5ドルをSoraに配分するなら、月4本で赤字です。
この計算をローンチ前に行い、「月4本以上使うユーザーが何%いるか」を推定するだけで、ビジネスモデルの破綻は予測できました。
2. PMFはデモの反響では測れない
Soraのデモは数千万回再生されましたが、PMFの指標は「継続利用率」と「支払い意思」です。大半のユーザーが「試して数本作って離脱」するパターンだったことが、PMF未達を示していました。
特に推論コストが高いサービスでは、「無料トライアルで試して感動した」ユーザーの大半が有料転換しないリスクを織り込む必要があります。動画生成AIの場合、「SNSで1本バズる動画を作る」という単発ニーズと「毎月継続的に動画を制作する」という定常ニーズは全く別物です。
3. 「デモ映え」と「ワークフロー統合」は別の問題
プロが求めるのは「驚き」ではなく「信頼性」と「制御性」です。美しいデモ動画を作れることと、既存の制作ワークフローに組み込めることは全く別です。
ワークフロー統合の評価には、以下の観点が必要です。
- 入力の制御性: ユーザーが意図した出力をどの程度精密に指定できるか
- 出力の編集性: 生成物の一部を修正・調整できるか
- 再現性: 同じ入力から同じ出力を得られるか
- 連携性: 前後の工程のツール(After Effects、Premiere Pro、Maya等)とデータを受け渡せるか
Soraは4項目すべてで不合格でした。
4. コスト最適化の戦略を複数持つ
推論コストが高いAIサービスが取りうるコスト最適化戦略は、主に以下の4つです。
| 戦略 | 手法 | トレードオフ |
|---|---|---|
| モデル圧縮 | 蒸留、量子化、プルーニング | 品質劣化のリスク |
| 推論最適化 | ステップ数削減、キャッシュ、バッチ処理 | レイテンシと品質のバランス |
| アーキテクチャ最適化 | 自社チップ、専用ASIC | 巨額の初期投資 |
| 価格設計 | 従量課金、品質別ティア、利用上限 | ユーザー体験の制約 |
Soraは「品質を最優先にし、コストはスケールで吸収する」という単一戦略に賭けました。スケールがコストを下げるどころかコストを加速させる構造だったため、この賭けは成立しませんでした。Klingのモデル圧縮戦略、Google Veoの自社チップ戦略は、それぞれ別の列のアプローチです。
5. GPUコストの機会コストを意識する
TechCrunchの報道が指摘するように、「Soraに投じるGPU 1ドルごとに、より収益性の高いサービスに投じられる1ドルを失っている」という機会コストの問題がありました。IPOを控えたOpenAIにとって、リソース配分の判断は明確でした。
同じH100を使って、テキスト生成APIなら1ドルあたり数十〜数百リクエストを処理でき、各リクエストが収益を生みます。動画生成では1ドルあたり1本未満の動画しか処理できず、その動画が直接的な収益を生まないサブスクモデルでした。GPUという希少リソースのROI差は歴然としています。
6. 撤退判断は早いほど傷が浅い
半年で撤退判断を下したこと自体は、サンクコストに囚われない経営判断として評価できます。問題は撤退の「判断」ではなく、コスト構造の検証が不十分なまま大規模ローンチに踏み切った「プロセス」にあります。
まとめ
Soraの終了は、単にOpenAIの1プロダクトが失敗したという話ではありません。AI業界が直面する構造的な課題を凝縮した事例です。
- 推論コストが収益を上回るプロダクトは、ユーザーが増えるほど赤字が拡大する
- デモの衝撃とプロダクトの実用性は別の指標で測る必要がある
- エンタープライズ市場では「一貫性」と「制御性」が「品質」以上に重要である
- GPU リソースの配分は、企業全体のポートフォリオ戦略として考える必要がある
動画生成AIというカテゴリ自体が終わったわけではありません。Runway、Pika、Google Veo、Klingはそれぞれの戦略で市場を築いています。しかし、「技術的に可能であること」と「ビジネスとして成立すること」の間には、依然として大きな溝があります。
Soraの教訓は、次のAIサービスを設計するすべての人にとって、その溝を渡るための地図になるはずです。
参照
- What to know about the Sora discontinuation | OpenAI Help Center
- Why OpenAI really shut down Sora | TechCrunch
- OpenAI's Sora app is struggling after its stellar launch | TechCrunch
- OpenAI Will Shut Down Sora Video App; Disney Drops Plans | Variety
- Why OpenAI Shut Down Sora: Sam Altman Felt 'Terrible' | Variety
- Sora Shutting Down, Disney's OpenAI Investment Is Dead | Deadline
- Sora Was Reportedly Costing OpenAI $1 Million Per Day | 80 Level
- The Real Sora Cost: OpenAI's $5 Billion AI Video Problem | Remio
- Build with Veo 3.1 Lite | Google Blog
- AI Video Market After Sora | Digital Applied