音声付き動画生成AIモデルの包括的調査レポート
ネイティブ音声生成機能を持つ動画生成AIは2024年10月から2025年10月の1年間で急速に発展し、12モデルが登場しました。 Google Veo 3とOpenAI Sora 2が最も注目を集めていますが、中国企業(Alibaba、ByteDance、Tencent、Baidu)が実は世界の音声付き動画生成AI開発を主導しています。
時系列順モデル一覧(リリース日古い順)
1. Meta Movie Gen(2024年10月4日)
開発企業: Meta(Facebook)
正式リリース日: 2024年10月4日(研究発表のみ、一般公開なし)
現在のステータス: 研究段階のみ、公開予定日未定
音声生成の仕様:
- 13Bパラメータの専用音声生成モデル
- 最大45秒の高品質オーディオを生成
- 48kHzサンプリングレート
- 環境音、効果音、楽器BGMをサポート
- 音声と映像を共同トレーニングで同期
- 音声の種類: 効果音、環境音、BGM(音声合成は非対応)
動画の仕様:
- 解像度:1080p HD
- 長さ:最大16秒
- フレームレート:16fps
- アスペクト比:1:1、9:16、16:9対応
特記事項: 30Bパラメータの映像生成モデルと13Bパラメータの音声モデルを組み合わせた世界初の大規模統合システム。約1億本の動画と約100万時間の音声データで訓練。Runway、Luma、OpenAI Soraを人間評価で上回ったが、一般公開されておらず、2025年中にInstagramなどMeta製品への統合を検討中。
2. ByteDance OmniHuman-1(2025年2月7日)
開発企業: ByteDance Research
発表日: 2025年2月7日(デモ公開、一般公開未定)
現在のステータス: 研究段階、公開未定
音声生成の仕様:
- 音声駆動型人間動画合成
- 単一画像+音声から動画を生成
- リップシンク機能
- 音声、テキスト、動画、ポーズ信号を入力として対応
- 音声の種類: 音声に同期した表情・身体動作生成
動画の仕様:
- ポートレート、ハーフボディ、フルボディ生成対応
- リアルな表情と動き
- 様々なアスペクト比対応
特記事項: 音声駆動型マルチモーダル人間動画生成システム。音声入力に基づいてリップシンクと身体動作を同期生成。一般公開されておらず、デモ動画のみが公開されている。
3. ByteDance Seaweed-7B(2025年4月14日)
開発企業: ByteDance Seed Team
発表日: 2025年4月14日(技術レポート公開)
現在のステータス: 研究モデル
音声生成の仕様:
- 音声・映像の統合生成
- OmniHuman統合による音声駆動型動画生成
- アクション、シーン、トーン、リズム、スタイルに同期した音声
- 音声の種類: 効果音、環境音、動作同期音声
動画の仕様:
- 解像度:720p(1280×720)、2K QHD(2560×1440)にアップスケール可能
- パラメータ:7B
- フレームレート:24fps
- リアルタイム生成(競合モデルの62倍高速)
特記事項: ELOスコア1047、勝率58%を達成。665,000 H100 GPU時間で訓練(類似モデルの約1/3のコスト)。リアルタイム生成能力を持つ世界最速クラスの音声付き動画生成モデル。
4. Vidu Q1(2025年4月21日)
開発企業: ShengShu Technology(シンガポール/中国、清華大学と提携)
正式リリース日: 2025年4月21日(グローバル公開)
現在のステータス: 一般公開済み、商用利用可能
音声生成の仕様:
- 業界初の48kHz高解像度音声出力
- AIサウンドエフェクトシステムを動画生成に統合
- テキストプロンプトから直接音声を生成
- マルチトラック音声レイヤリング(最大10秒/トラック)
- タイムスタンプベースの自然言語音声コントロール
- 音声の種類: BGM、効果音、環境音、セマンティック認識音声生成
動画の仕様:
- 解像度:1080p HD
- 長さ:5秒
- フレームレート:25fps
- U-ViTアーキテクチャ(DiT以前の設計)
- First-to-Last Frame遷移システム
- Multiple-Entity Consistency機能
特記事項: VBenchベンチマークで1位を獲得。Runway Gen-2、OpenAI Sora、Luma Dream Machineを上回る評価。Aura Productionsの50話SFシリーズや「カメラを止めるな!」プロデューサーが設立したPocket ANIMEスタジオに採用。2025年2月にAPIプラットフォームを開始。
5. Google Veo 3(2025年5月20日)
開発企業: Google DeepMind
正式リリース日: 2025年5月20日(Google I/O 2025で発表)
現在のステータス: 一般公開済み(Google AI Ultra/Proプラン、Geminiアプリ)
音声生成の仕様:
- DeepMindの「video-to-audio」AI研究(2024年6月)に基づく
- 映像のピクセルを理解して自動的に同期音声を生成
- プロンプトベースの音声制御(引用符でセリフ、音声説明を記述)
- 音声の種類: 効果音、環境音、セリフ(リップシンク付き)
動画の仕様:
- 解像度:720pまたは1080p
- 長さ:8秒
- フレームレート:24fps
- アスペクト比:16:9(横長)
利用可能なバリエーション:
- Veo 3: フル品質モデル($0.75/秒)
- Veo 3 Fast: 高速・コスト効率版($0.40/秒)
特記事項: 商用展開された最初の音声付き動画生成AIの一つ。Google DeepMind CEOのDemis Hassabisは「動画生成のサイレント時代からの脱却」と表現。音声、セリフ文字起こし、動画クリップの組み合わせで訓練。現在、短いセリフセグメントでの自然で一貫した音声生成は開発中の課題と公式に認めている。
6. Tencent HunyuanVideo-Avatar(2025年5月28日)
開発企業: Tencent Hunyuan Lab
正式リリース日: 2025年5月28日(オープンソース公開)
現在のステータス: オープンソース(GitHub、HuggingFace)
音声生成の仕様:
- 音声駆動型キャラクターアニメーション
- 音声感情コントロール
- セリフ、歌唱、パフォーマンスに対応
- Face-Aware Audio Adapterによる複数キャラクター音声シナリオ
- リップシンクと感情表現コントロール
- 音声の種類: セリフ、歌唱、パフォーマンス音声
動画の仕様:
- マルチスタイルアバター(フォトリアル、カートゥーン、3Dレンダリング、擬人化)
- マルチスケール生成(ポートレート、上半身、全身)
- 129フレーム対応
- ハイダイナミック前景・背景
特記事項: Multimodal Diffusion Transformer(MM-DiT)ベースのアーキテクチャ。音声による感情表現とリップシンクの制御に特化。オープンソースで公開され、研究・商用利用が可能。
7. Baidu MuseSteamer(2025年7月2日)
開発企業: Baidu
正式リリース日: 2025年7月2日
現在のステータス: 中国国内のみ公開(Huixiangプラットフォーム)
音声生成の仕様:
- 世界初の中国語音声・動画統合AIモデル
- 中国語セリフと効果音の同期生成
- 「映像優先、音声後付け」ワークフローの廃止
- ネイティブ音声・動画統合生成パイプライン
- 音声の種類: 中国語セリフ、効果音、環境音
動画の仕様:
- 複数バージョン提供:
- Lite: 720p(高速生成)
- Turbo: 720p(キャラクター・アニメ最適化)
- Pro: 1080p(シネマ品質)
- Audio版: 効果音・セリフ生成対応
- 長さ:10秒
- シネマ品質のクリップ生成
特記事項: VBench I2Vベンチマークで89.38%のスコアを獲得し世界1位。中国語音声生成に最適化されており、中国市場向けに特化。現在は中国国内のみでアクセス可能。
8. Alibaba Wan2.2-S2V-14B(2025年8月26日)
開発企業: Alibaba Cloud / Tongyi Wanxiang
正式リリース日: 2025年8月26日(オープンソース公開)
現在のステータス: オープンソース(GitHub、HuggingFace)
音声生成の仕様:
- 音声駆動型シネマティック動画生成
- 静止画像+音声から動画を生成
- セリフ、歌唱、パフォーマンスコンテンツに対応
- 音声・映像同期
- 複数人のボーカル、表情、身体動作
- 階層的フレーム圧縮により長時間動画対応(最大73参照フレーム)
- 音声の種類: セリフ、歌唱、パフォーマンス音声
動画の仕様:
- 解像度:複数解像度対応
- 長さ:1分レベルまで単一生成可能
- パラメータ:14B
- Wan2.2基盤に音声駆動モーション制御を追加
特記事項: 60万件以上の音声・動画セグメントで訓練。Wan2.2の基本モデルは音声非対応だが、S2V(Sound-to-Video)バリアントは音声駆動型映像生成に特化。Apache 2.0ライセンスでオープンソース公開。
9. Tencent HunyuanVideo-Foley(2025年8月28日)
開発企業: Tencent Hunyuan Lab
正式リリース日: 2025年8月28日(オープンソース公開、XLモデルは9月29日)
現在のステータス: オープンソース(GitHub)
音声生成の仕様:
- End-to-End Text-Video-to-Audio(TV2A)フレームワーク
- 高忠実度音声出力(48kHz)
- 効果音、音楽、ボーカルの同期生成
- プロフェッショナルグレードの音声生成品質
- 完璧なタイミングと同期
- 音声の種類: 効果音(Foley)、音楽、ボーカル
動画の仕様:
- ベースモデル:HunyuanVideo(13Bパラメータ、2024年12月3日公開)
- 解像度:最大720p × 1280p
- 動画から音声を生成(Video-to-Audio)
モデルサイズ:
- XXLモデル: 20GB VRAM必要
- XLモデル: 16GB VRAM必要
特記事項: 10万時間の動画・音声・テキスト説明ライブラリで訓練。映像コンテンツを理解してプロ品質のFoley音声を自動生成。オープンソースで研究・商用利用可能。
10. Alibaba Wan 2.5(2025年9月23-24日)
開発企業: Alibaba Cloud / Tongyi Wanxiang
正式リリース日: 2025年9月23-24日
現在のステータス: APIアクセス可能(Alibaba Cloud DashScope)
音声生成の仕様:
- Veo 3に次ぐ世界第2のネイティブ音声・動画同期生成モデル
- 複数人のボーカル、効果音、BGMの同期生成
- リップシンク機能
- 環境音・環境オーディオ
- 音声リファレンスのアップロード対応(音声トラック、効果音、音楽)
- 音声の種類: セリフ、効果音、BGM、環境音
動画の仕様:
- 解像度:480p、720p、1080p(最大4K言及あり)
- フレームレート:24fps
- 長さ:最大10秒
- ネイティブマルチモーダルアーキテクチャ(テキスト、音声、映像の共同訓練)
特記事項: 商用で広く利用可能な音声付き動画生成AIの一つ。Alibaba Cloudを通じてAPIアクセスが可能。クローズドソースの商用サービス。音声リファレンスのアップロード機能により、ユーザー指定の音声スタイルやトーンを反映可能。
11. OpenAI Sora 2(2025年9月30日発表/10月1日公開)
開発企業: OpenAI
正式リリース日: 2025年9月30日(発表)、2025年10月1日(招待制公開)
現在のステータス: 招待制(米国・カナダのみ、iOSアプリとsora.com)
音声生成の仕様:
- 「General Purpose Video-Audio Generation System(汎用動画・音声生成システム)」
- 音声と映像を「単一パス」で同時生成(一緒に誕生)
- フレームバイフレームで音声を映像コンテンツに整合
-
音声の種類:
- セリフ(正確なリップシンク付き)
- 効果音(ドアの閉まる音、足音など視覚アクションに同期)
- 環境音・背景サウンドスケープ
- 音楽生成
動画の仕様:
- 解像度:最大1080p
- 長さ:10-16秒(ソースにより若干異なる)
- アスペクト比:横長、縦長(9:16)、正方形
高度な機能:
- 物理的により正確でリアル
- 物理シミュレーション改善(適切な物体の動き、運動量、浮力、衝突)
- マルチショット一貫性(キャラクターと世界状態がシーン間で持続)
- スタイル対応:リアル、シネマティック、アニメ
- 「Cameo」機能:本人または他者の検証済み容貌を同意のもと挿入可能
アクセス:
- 招待制iOSアプリ(現在米国・カナダのみ)
- sora.comでもアクセス可能(招待必要)
- 無料ティアあり(計算制約あり)
- ChatGPT Proユーザーは高品質「Sora 2 Pro」にアクセス可能
- API計画中(未公開)
特記事項: OpenAIは「動画におけるGPT-3.5の瞬間」と表現。元のSoraの「GPT-1の瞬間」から大幅な能力と品質の飛躍。音声と映像が別々に生成されるのではなく、一緒に生成されることで「一貫した動画・音声体験」を実現。
12. OpenAI Sora 2 Pro(2025年9月30日)
開発企業: OpenAI
正式リリース日: 2025年9月30日(Sora 2と同時発表)
現在のステータス: ChatGPT Proサブスクライバー専用(月額$200)
音声生成の仕様:
- Sora 2と同じ統合音声・動画生成システム
- ネイティブ音声生成:✅ あり(Sora 2と同じ)
- 音声の種類: セリフ、効果音、環境音、音楽(Sora 2と同様)
動画の仕様:
- Sora 2の高品質版
- 解像度:最大1080p
- 長さ:10-16秒
- より高品質な生成、より長い生成オプションの可能性
アクセス:
- ChatGPT Proサブスクライバー専用(月額$200)
- sora.comでアクセス可能(iOSアプリにも今後追加予定)
特記事項: Sora 2の強化版で、より高い品質とパフォーマンスを提供。詳細な技術仕様は公開されていないが、Sora 2と同じネイティブ音声生成能力を持つ。
音声なしモデルの明確化(重要)
以下の主要モデルはネイティブ音声生成機能を持たないことを確認:
Google Veo 1とVeo 2
- Veo 1(2024年5月14日):1080p、60秒以上、音声なし
- Veo 2(2024年12月16日):最大4K、数分、音声なし
OpenAI Sora Turbo(オリジナルSora)
- 発表: 2024年2月15日
- 一般公開: 2024年12月9日
- ネイティブ音声生成なし、ポストプロダクション音声作業が必要
- 最大20秒、1080p
Alibaba Wan 2.2(ベースモデル)
- 発表: 2025年7月28-29日
- ベースモデル(T2V、I2V、TI2V)は音声なし
- 音声付きはS2Vバリアントのみ
Kuaishou Kling AI(全バージョン)
- Kling AI 1.0、2.0、2.1はネイティブ音声生成なし
- 別の音声生成ツールあり(中国語のみ、リップシンク不良)
- 音声は生成後に別途追加、同期品質が低い
Runway、Luma AI、Pika Labsなど
- Runway Gen-2/Gen-3/Gen-4: 別の「Generative Audio」ツールあり、ネイティブ統合なし
- Luma AI Dream Machine: 動画作成後に「Audio」ボタンで音声追加、同時生成なし
- Pika Labs: 2024年3月に効果音機能発表、動画生成後に追加
- Stability AI: Stable AudioとStable Video Diffusionは完全に別製品
- MiniMax Hailuo: 動画のみ生成、別の音声モデルあり(統合なし)
主要な発見と洞察
グローバルリーダーシップ
中国企業が音声付き動画生成AIを主導しています。 12モデル中7モデル(58%)が中国企業によるもの:Alibaba(2モデル)、ByteDance(2モデル)、Tencent(2モデル)、Baidu(1モデル)。欧米企業はGoogle、OpenAI、Meta、ShengShuの4社のみ。
商用利用可能なモデル
一般公開済み:
- Google Veo 3(Google AI Ultra/Proプラン、Geminiアプリ)
- Vidu Q1(グローバル公開、API利用可能)
- Alibaba Wan 2.5(Alibaba Cloud経由API)
- OpenAI Sora 2/Sora 2 Pro(招待制、米国・カナダのみ)
- Baidu MuseSteamer(中国国内のみ)
オープンソース:
- Alibaba Wan2.2-S2V-14B
- Tencent HunyuanVideo-Foley
- Tencent HunyuanVideo-Avatar
研究段階のみ:
- Meta Movie Gen(公開予定日未定)
- ByteDance OmniHuman-1(デモのみ)
- ByteDance Seaweed-7B(研究モデル)
音声生成の3つのアプローチ
-
統合同期生成型: テキストから映像と音声を同時生成
- Google Veo 3、OpenAI Sora 2、Alibaba Wan 2.5、Baidu MuseSteamer、Vidu Q1
-
音声駆動型: 音声入力から映像の動きを生成
- Alibaba Wan2.2-S2V、ByteDance OmniHuman-1、Tencent HunyuanVideo-Avatar
-
動画から音声生成型: 既存動画に音声を生成
- Tencent HunyuanVideo-Foley、Meta Movie Gen(音声も同時生成可能)
技術仕様の比較
最高解像度: Alibaba Wan 2.5(最大4K言及)、Google Veo 2(4K、音声なし)
最長動画: Alibaba Wan2.2-S2V-14B(最大1分レベル)、Meta Movie Gen(45秒音声)
最高音質: Vidu Q1(48kHz)、Tencent HunyuanVideo-Foley(48kHz)、Meta Movie Gen(48kHz)
最大パラメータ: Meta Movie Gen(30B動画+13B音声)、Alibaba Wan2.2-S2V(14B)、Tencent HunyuanVideo(13B基盤)
音声機能の違い
セリフ生成対応:
- Google Veo 3、OpenAI Sora 2、Alibaba Wan 2.5、Baidu MuseSteamer、ByteDance OmniHuman-1、Alibaba Wan2.2-S2V、Tencent HunyuanVideo-Avatar
効果音のみ:
- Meta Movie Gen(音声合成非対応)、Tencent HunyuanVideo-Foley(Foley特化)
音楽生成:
- OpenAI Sora 2、Meta Movie Gen、Tencent HunyuanVideo-Foley、Vidu Q1
リップシンクの課題
Googleは公式に「短いセリフセグメントでの自然で一貫した音声生成、特にリップシンクは開発中の課題」と認めています。Kling AIは音声機能があるものの、リップシンクの品質が低いと報告されています。この技術的課題は業界全体で取り組んでいる重要なポイントです。
2025年が転換点
2024年10月のMeta Movie Gen発表から始まり、2025年2月-10月の間に11モデルが集中的にリリース。特に2025年4月-9月の半年間に10モデルが登場し、音声付き動画生成AIの「ブレイクアウトイヤー」となりました。
結論
音声付き動画生成AIは2024-2025年に急速に発展し、「サイレント時代」から「トーキー時代」への移行が完了しました。中国企業が技術開発と商用展開で世界をリードし、オープンソース化も積極的に推進しています。 一方、欧米企業はGoogle Veo 3とOpenAI Sora 2が商用利用可能な段階に達していますが、Meta Movie Genは依然として研究段階にあります。
今後の課題は、より長い動画の生成、より自然なセリフとリップシンク、そして4K以上の高解像度への対応です。2025年後半から2026年にかけて、これらの技術的課題を克服した次世代モデルの登場が予想されます。