2

Supership株式会社

OpenAIのSora、AmazonのNova Reel、RunwayのGen-3 AlphaのAI生成動画を比較してみた

Posted at 2024-12-15

Supershipの名畑です。私の中で医療マンガで真っ先に思い浮かぶものといえばスーパードクターKです。ということで、渋谷で開催中の真船一雄漫画家40周年記念スーパードクターKシリーズ原画展 Kの系譜、楽しませていただきました。

はじめに

最初に情報が出てから9ヶ月、ついにOpenAIから動画生成AIのSoraがリリースされました。

米OpenAIは12月9日（現地時間）、動画生成AI「Sora」を同日から提供すると発表した。Soraは文章や画像、動画を入力すると新たに短い動画を作れる生成AIで、2つの動画を混ぜて、1つの動画にもできる。まずは有料プラン「ChatGPT Plus」（月額20ドル）と「ChatGPT Pro」（月額200ドル）の利用者向けに開放する。

参考：OpenAIの動画生成AI「Sora」、ついに一般提供開始　「ChatGPT」課金ユーザーなら追加負担なし - ITmedia NEWS

また、その数日前にはAmazon Web Services(AWS)が生成AIモデルであるNovaをリリースしており、この中には動画生成モデルであるNova Reelが含まれます。

米Amazonのクラウド部門AWSは12月3日（現地時間）、ラスベガスで開催の年次イベント「AWS re:Invent」で、マルチモーダル生成AIモデル「Amazon Nova」ファミリーを発表した。AWSのAI開発プラットフォーム「Bedrock」で利用可能になる。

略

テキスト生成モデルにはMicro、Lite、Pro、Premierの4サイズあり、Premier以外は同日からAWSで提供を開始し、Premierは2025年初頭に提供開始予定だ。日本語を含む15言語をサポートする。
画像生成モデルの「Nova Canvas」、動画生成モデルの「Nova Reel」も同日AWSでリリースされた。リリース段階ではサポートするのは英語のみ。

参考：AWS、生成AIモデル「Amazon Nova」ファミリーをBedrockでリリース　動画生成モデルも - ITmedia NEWS

今回は上記2つと、このQiitaでも何度か取り上げてきたRunwayのGen-3-Alphaの生成動画を簡単に比較してみようと思います。

価格

各サイトをご覧ください。

解像度と秒数

Sora

1:1、16:9、9:16のいずれかの縦横比率となります。

ChatGPT Plusでは解像度が720pまでで、長さは5秒です。また、ウォーターマークが入ります。ChatGPT Proでは1080pまでで最長20秒で、ウォーターマークが入りません。

今回は1280x720の5秒動画生成を行います。

Nova Reel

解像度は1280x720で、長さは6秒です。

詳しくは「Generating videos with Amazon Nova - Amazon Nova」をご覧ください。

Gen-3-alpha

解像度は1280x768で、長さは5秒か10秒です。最大40秒まで延ばすことが可能です。

詳しくは「Creating with Text/Image to Video on Gen-3 Alpha and Turbo – Runway」をご覧ください。

今回は1280x768で5秒とします。

テキストからの生成(Text to Video)

動きがある方がよさそうなので、プロンプトは「Japanese man playing basketball」とします。訳せば「バスケットボールをしている日本人男性」です。

本来であればカメラアングル等も入れた方がいいのでしょうが、今回は簡単な比較のため、シンプルにします。

Sora

Nova Reel

Gen-3 Alpha

どれを見ても、一貫したダイナミックなスポーツの動きを実現するのは難しいのだというのが感想です。

完全に主観ですが品質としては

Sora > Gen-3 Alpha > Nova Reel

の順番ですかね。

Nova Reelがやや他2つより劣っているように思えます。

画像からの生成(Image to Video)

Black Forest Labsの FLUX.1.1[pro] でこちらの画像を生成しました。

サイズは1280x768です。

FLUX.1.1[pro] について詳しくは過去記事「Stable Diffusionのオリジナル開発陣による画像生成AIモデル最新版FLUX 1.1 [pro]のWeb APIを呼んでいくつかの画像を生成してみた」をご覧ください。

SoraとNova Reel用の元画像は解像度を変更したものを使います。

また、プロンプトはそれぞれ「Pouring water from a plastic bottle into a glass」とします。訳すと「ペットボトルの水をグラスに注いでいる」ですね。

Sora

Nova Reel

Gen-3 Alpha

Soraは指定画像が最初のコマとして使用されていませんね。
インターネットで調べていると、私だけではなく、他の人でも見られる傾向のようです。

それを踏まえ、これもやはり完全な主観ですが、品質としては

Gen-3 Alpha > Nova Reel > Sora

の順番と感じました。

最後に

記事で公開している以外にもいくつか生成したのですが、本音として、Soraは期待値がかなり高かったので「うーん」と思ってしまいました。ただ、どれも間違いなく高品質で、使い所次第でかなり活かせるだろうという感想でもあります。

選択肢が増えていくのは素晴らしいことですね。

宣伝

SupershipのQiita Organizationを合わせてご覧いただけますと嬉しいです。他のメンバーの記事も多数あります。

Supershipではプロダクト開発やサービス開発に関わる方を絶賛募集しております。
興味がある方はSupership株式会社採用サイトよりご確認ください。

2

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

2