Supershipの名畑です。私の中で医療マンガで真っ先に思い浮かぶものといえばスーパードクターKです。ということで、渋谷で開催中の真船一雄 漫画家40周年記念 スーパードクターKシリーズ原画展 Kの系譜、楽しませていただきました。
はじめに
最初に情報が出てから9ヶ月、ついにOpenAIから動画生成AIのSoraがリリースされました。
米OpenAIは12月9日(現地時間)、動画生成AI「Sora」を同日から提供すると発表した。Soraは文章や画像、動画を入力すると新たに短い動画を作れる生成AIで、2つの動画を混ぜて、1つの動画にもできる。まずは有料プラン「ChatGPT Plus」(月額20ドル)と「ChatGPT Pro」(月額200ドル)の利用者向けに開放する。
参考:OpenAIの動画生成AI「Sora」、ついに一般提供開始 「ChatGPT」課金ユーザーなら追加負担なし - ITmedia NEWS
また、その数日前にはAmazon Web Services(AWS)が生成AIモデルであるNovaをリリースしており、この中には動画生成モデルであるNova Reelが含まれます。
米Amazonのクラウド部門AWSは12月3日(現地時間)、ラスベガスで開催の年次イベント「AWS re:Invent」で、マルチモーダル生成AIモデル「Amazon Nova」ファミリーを発表した。AWSのAI開発プラットフォーム「Bedrock」で利用可能になる。
略
テキスト生成モデルにはMicro、Lite、Pro、Premierの4サイズあり、Premier以外は同日からAWSで提供を開始し、Premierは2025年初頭に提供開始予定だ。日本語を含む15言語をサポートする。
画像生成モデルの「Nova Canvas」、動画生成モデルの「Nova Reel」も同日AWSでリリースされた。リリース段階ではサポートするのは英語のみ。参考:AWS、生成AIモデル「Amazon Nova」ファミリーをBedrockでリリース 動画生成モデルも - ITmedia NEWS
今回は上記2つと、このQiitaでも何度か取り上げてきたRunwayのGen-3-Alphaの生成動画を簡単に比較してみようと思います。
価格
各サイトをご覧ください。
解像度と秒数
Sora
1:1、16:9、9:16のいずれかの縦横比率となります。
ChatGPT Plusでは解像度が720pまでで、長さは5秒です。また、ウォーターマークが入ります。ChatGPT Proでは1080pまでで最長20秒で、ウォーターマークが入りません。
今回は1280x720の5秒動画生成を行います。
Nova Reel
解像度は1280x720で、長さは6秒です。
詳しくは「Generating videos with Amazon Nova - Amazon Nova」をご覧ください。
Gen-3-alpha
解像度は1280x768で、長さは5秒か10秒です。最大40秒まで延ばすことが可能です。
詳しくは「Creating with Text/Image to Video on Gen-3 Alpha and Turbo – Runway」をご覧ください。
今回は1280x768で5秒とします。
テキストからの生成(Text to Video)
動きがある方がよさそうなので、プロンプトは「Japanese man playing basketball」とします。訳せば「バスケットボールをしている日本人男性」です。
本来であればカメラアングル等も入れた方がいいのでしょうが、今回は簡単な比較のため、シンプルにします。
Sora
Nova Reel
Gen-3 Alpha
どれを見ても、一貫したダイナミックなスポーツの動きを実現するのは難しいのだというのが感想です。
完全に主観ですが品質としては
Sora > Gen-3 Alpha > Nova Reel
の順番ですかね。
Nova Reelがやや他2つより劣っているように思えます。
画像からの生成(Image to Video)
Black Forest Labsの FLUX.1.1[pro] でこちらの画像を生成しました。
サイズは1280x768です。
FLUX.1.1[pro] について詳しくは過去記事「Stable Diffusionのオリジナル開発陣による画像生成AIモデル最新版FLUX 1.1 [pro]のWeb APIを呼んでいくつかの画像を生成してみた」をご覧ください。
SoraとNova Reel用の元画像は解像度を変更したものを使います。
また、プロンプトはそれぞれ「Pouring water from a plastic bottle into a glass」とします。訳すと「ペットボトルの水をグラスに注いでいる」ですね。
Sora
Nova Reel
Gen-3 Alpha
Soraは指定画像が最初のコマとして使用されていませんね。
インターネットで調べていると、私だけではなく、他の人でも見られる傾向のようです。
それを踏まえ、これもやはり完全な主観ですが、品質としては
Gen-3 Alpha > Nova Reel > Sora
の順番と感じました。
最後に
記事で公開している以外にもいくつか生成したのですが、本音として、Soraは期待値がかなり高かったので「うーん」と思ってしまいました。ただ、どれも間違いなく高品質で、使い所次第でかなり活かせるだろうという感想でもあります。
選択肢が増えていくのは素晴らしいことですね。
宣伝
SupershipのQiita Organizationを合わせてご覧いただけますと嬉しいです。他のメンバーの記事も多数あります。
Supershipではプロダクト開発やサービス開発に関わる方を絶賛募集しております。
興味がある方はSupership株式会社 採用サイトよりご確認ください。