この動画、ほぼ全て生成AIを用いて作成されたものなんです!
- 画像生成:DALL-E 3 (ChatGPT)
- 動画生成:Runway
- 音楽生成:Suno AI
この記事では、どのようにして生成AIでTHE FIRST TAKE 風の動画を制作したのか、やり方を簡単に解説したいと思います。
画像生成
まずは画像生成についてです。
ChatGPTのDALL-E 3を使用します。
ベースとなる横顔を生成しよう
↓最初に入力したプロンプトがこれ。
create image
very real
idol face
face in profile
japanese male
25 years old
wearing glasses
wearing headphone on his head
wearing jacket
16:9
基本的に、画像生成の際は、英語で命令を入力します。
英語の方が出力が安定するらしいです。
↓日本語になおすとこんな感じです。
画像を生成して
とてもリアル
アイドル顔
横顔
日本人男性
25歳
メガネをかけている
ヘッドフォンを頭につけている
ジャケットを着ている
16:9
THE FIRST TAKEといえば、マイクに向かって歌唱しているのを横から撮影しているイメージが強いので「横顔」と指定しました。また、ヘッドフォンをつけて歌っているので、ヘッドフォンについても指定しました。頭につけていることを明記したのは、首にぶら下げてしまう可能性もあるからです。
どことなく嵐の松潤やニノっぽい?
というわけで採用。
それっぽいポーズをとってもらおう
今度はサムネイル用に「それっぽいポーズ」をとってもらいます。
ここで1つ大事なポイントがあって、なるべく同じ顔を保持してもらいたいので、画像のシード値と画像IDを取得します。ChatGPTに「シード値と画像ID教えて」とお願いしたら、
こちらが生成された画像のIDとシード情報です:
シード: 123456789
画像ID: XXXXXXXXXXXXXXXX
何か他にお手伝いできることがあれば教えてください!
っ感じで教えてくれるので、次の命令からはこれらの値も指定します。
seed: 123456789
imageID:XXXXXXXXXXXXXXXX
rest his chin on his hand
「それっぽいポーズ」では伝わらないので、「頬杖をついて」とお願いしました。
↓出力された画像がこれ。
ややディティールが変更されていますが(顔立ちや服装など)、概ねイメージ通りの出力で許容範囲内ですね。
できればこっちを向いて欲しいので、ファンサうちわを掲げましょう。 プロンプトに入力しましょう。
その前にもう1つ注意点があります。シード値は変わりませんが、画像IDは変わりますので、画像IDを取得し直す必要があります。新しく取得した画像IDを使って、さきほどと同様に入力します。
seed: 123456789
imageID:YYYYYYYYYYYY
Look straight ahead
めっちゃ男前!
あとは、適当に加工すれば THE FIRST TAKE 風のサムネイルができますね。
正面から見た姿も生成しよう
横顔だけでは尺がもたない気がするので、真正面からの画像も生成しました。先ほどと同様の手順なので説明は割愛しますが、「whole body」と命令しました。
音楽生成
次に音楽生成についてです。
Suno AIを使用します。
楽曲を生成するのに必要なプロンプトは以下の3つ。
- 歌詞
- 音楽スタイル
- 楽曲タイトル
これらを入力すると、楽曲を返してくれます。
歌詞については、できれば自分で作詞することをオススメします。ChatGPTに作ってもらう方法もありますが、私が知る限り、ChatGPTは「韻」や「言葉の音の数」についての理解が弱いため、あまり良い歌詞は生成されないです。
音楽スタイルについては、運要素が強い気がしています。極端な例を挙げると、"sad"という入力をしても悲しい曲調が確実に返ってくるわけではなく、楽しい雰囲気の曲が返ってくることもあるということです。まあ、なにも指定しないよりははるかにマシな結果が返ってくるので、さまざまなプロンプトを試行錯誤しつつ、辛抱強く自分のイメージ通りの曲が返ってくるまで生成を繰り返すことが大事だと思います。
タイトルについては、あまり影響ないので適当で大丈夫です。
動画生成
画像と音楽が用意できたので、いよいよ動画生成です。
Runwayを使用します。
画像自然な動きを加えよう
まずは画像に自然な動きを加えるために、Generative Video という機能を使います。さきほど生成した真正面からの画像を入力して、以下のプロンプトを指定しました。
Fix the camera position
Add natural movements such as blinking and slight body swaying
日本語で表すと、「カメラ位置を固定する」「瞬きやわずかな体の揺れなど自然な動きを加える」です。生成された動画がこちら。
歌に合わせて口パクさせよう
次はこの動画をベースに、Lip Sync Videoという機能を使って、歌に合わせて口パク(リップシンク)させます。手順は先ほど生成した動画と音源を入力するだけです。生成された動画がこちら。
Lip Sync Videoでは、1度に作れる動画の尺が40sまでなので、音源を細かく区切って少しずつ素材を作成していきます。
余談:横顔はうまくいかない
横顔の場合、動きをつけた状態だとリップシンクがうまく機能しなかったので、静止画をベースにリップシンクさせました。そのせいで、完成した動画は「横アングルの時だけ身体の動きが止まる」という不自然なことになっています。
動画編集
ここまでで、素材を作成することができたので、あとは動画編集をしていくだけです。素材をつなぎあわせたり、マイクの画像を動画に貼り付けたり、していきます。生成AIとはあまり関係ない部分なので説明は割愛します。編集ツールとしてはCapCutを使用しました。
また、THE FIRST TAKEのタイトル素材には moolike 様 の素材を使わせていただきました。
費用
生成AIを用いて動画制作してみたい方向けに、いくら費用がかかるのかについても共有しておきます。
- DALL-E 3:$20.00 / mont
- Suno AI:$10.00 / month
- Runway:$35.00 / month
合計:$65.00 / month
日本円になおすと月額おおよそ9,000円〜10,000円くらいです。
年額で支払うともう少し安くなります。
*ただし、Suno AIとRunwayは、商用利用しない・機能に制限があっても良いのであれば、無料でも試すことができます。
まとめ
生成AIを用いてTHE FIRST TAKE風の動画を制作する方法について解説しました。細かいことは割愛したのでわかりづらい部分もあるかもしれませんが、ざっくりとした流れが伝わっていたらうれしいです。
興味がある方はぜひマネしてみてください!