12
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

はじめに

本記事はリンクアンドモチベーション Advent Calendar 2024の17日目になります。
動画生成に興味があるので、最近話題のSoraを試してみました。

Soraの概要

Soraは、OpenAIが開発したテキストから動画を生成するモデルです。
先週あたりからChatGPT Plusユーザー向けに提供が開始され、当初はアクセスが集中して利用しづらかったものの、ようやく触れるようになったので試してみました。

基本情報

  • 利用プラン:ChatGPT Plus(月額20ドル)(ChatGPT Proでも利用可能)
  • 機能制限:一部あり、1000クレジット分利用可能
  • 動画生成の最大秒数:5秒(実際には10秒まで生成可能)
  • 最大解像度:720p
  • 最大同時生成数:2つ
  • クレジット消費量:時間と解像度に応じて変動
    • 5秒・480p:20~25クレジット
    • 10秒・720p:180クレジット

基本機能

Soraには以下のような基本機能があります。

  • テキストから動画を生成
  • Story Board:シーンに応じた動画生成
  • Blend:複数の動画を組み合わせる
  • Remix:生成済みの動画を編集する

今回は出力の比較がしやすいことから、「いらすとや」の画像をベースに機能を試してみました。
※他にもありますが、今回は割愛しました。

テキストから動画を生成

テキストに応じて動画を生成できます。画像や動画を入力データとして併用することも可能です。

  • 入力画像:「いらすとや」の男の子の画像
  • 入力テキスト:「この少年が公園の中を走り回っている様子を描いて」

kid_seikaku_kachiki_boy_2.png

出力動画
output_2.gif

注意点

画像や動画に人物が含まれている場合、エラーが発生します。
「いらすとや」のようなイラストは利用可能でしたが、DALL-E 3などで生成したリアルな画像は使えませんでした。

Your account does not currently support creating videos with uploaded media containing people. If you upload a photo or video that contains people the video will fail to generate and you will not be charged any credits.


Story Board

シーンに合わせた動画の生成ができます。
入力はテキスト・画像・動画に対応しており、シーンごとにprompt(指示文)を設定可能です。

スクリーンショット 2024-12-18 2.12.32.png

また、一度作成した動画は自動的にStory Board化されるため、部分的な編集がしやすくなります。

  1. シーン1:「いらすとや」の男の子の画像を入力
  2. シーン2:シーン1の画像を説明したテキストを入力(画像アップロード時に自動生成してくれるもの)
  3. シーン3:「この少年が公園の中を走り回っている様子を描いて」
  4. シーン4:「この少年が公園の中でサッカーボールを見つけて蹴る様子を描いて」

出力動画

output.gif
注意点
シーン2(画像と同じテキスト)は一見不要に思えますが、省略すると人物が途中で別キャラクターとして扱われてしまうことがあります。

省略した場合の動画
output_3.gif


Blend

複数の動画を組み合わせることができます。
主なBlendの種類は以下の通りです。

  • Transition Blend:2つの動画をシームレスに繋げる
  • Mix Blend:2つの動画を均等に混ぜる
  • Sample Blend:1つの動画に別動画の要素を一部追加
  • Custom Blend:2つの動画を任意の割合で混ぜる

Transition Blendの例

出力動画

output_4.gif

Mix Blendの例

出力動画

output_5.gif

Sample Blendの例

出力動画

output_6.gif

  • Transition Blendは「いらすとや」要素からリアルな男の子に変わっている
  • Mix Blendは比較的リアルな男の子の要素が最初から混じっている
  • Sample Blendはメイン要素の「いらすとや」要素がより強くなっている
    ように見えます。

Remix

動画を編集する際、テキストを入力して修正が可能です。
Remixの強度は8段階で設定できます。

  • 入力動画:リアルな男の子の動画
  • テキスト:「少年をリアルな猿に変えて」
  • Remix強度:Strong(7/8)

出力動画

output_7.gif

動きがやや不自然な箇所もありますが、猿への置き換えはしっかり反映されています。


感想

良いと思った点

  • 簡単に高品質な動画が生成できて楽しい!
  • DALL-E 3での画像生成と比較して、画像や動画をインプットにできるので、イラストや画像自体のトンマナの統一は楽にできそう

課題に思った点

  • 実際に動画を利用できるビジネスシーンが限られそう
  • クオリティ面での課題
    • 物理的に不自然な動きが発生する
    • 思い通りの動きを実現するには試行錯誤が必要

特に、Story Boardは使い方によっては、より表現したい動画を作るために試行錯誤の余地がありそうなので、今後も引き続き試してみたいと思います。
ちょうど最近GoogleのVeo2も注目されているので、こちらとも比較して試してみます。

12
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?