Supershipの名畑です。ダンジョン飯は本当に安心して楽しめますね。冷静に考えたなら、かなりデンジャラスな内容なのに。
はじめに
RunwayのGen-2という動画生成ツールの話題を目にしたため、使ってみたという記事です。
Runway is an applied AI research company shaping the next era of art, entertainment and human creativity.
Runwayのサイトには上記のように書かれています。訳すと「Runwayはアート、エンターテイメント、人間の創造性の新時代を形作る応用AI研究会社です」といったところでしょうか。
過去にはStability.aiと組んで画像生成のStable Diffusionを共同リリースしたということで有名ですが、今は独自サービスの展開を行なっているそうです。
今回の記事においてGen-2で行うのは
- テキストからの動画生成を2パターン
- 静止画からの動画生成
- 静止画の一部分のみを動画化
の合計4パターンとなります。
前提
- 実際の生成物はmp4ですが、アニメーションGIFに変換したものを掲載しています。
- 画像は容量の関係で解像度並びに画質をかなり落としてあります。実際はもっと鮮明です。
Runway
Runwayという社名と同名のプラットフォームがあり、そこでは生成AIを活用したツールが30以上提供されています。Gen-2はそのうちの一つです。
代表的なものとしては以下のツールがあります。
- Gen2(Text/Image to Video)
- Gen1(Video to Video)
- Remove Background
- Text to Image
- Image to Image
- Text to Speech
iOSアプリやDiscordでも利用可能なようですが、今回はブラウザ版で進めます。
アカウント作成
Sign upのページからアカウントを作成します。
E-mailアドレスを用いての登録のほかにGoogleアカウント、Appleアカウントも利用できます。
EnterpriseプランではSSOも対応しているそうです。
ログインするとDashboardが表示されます。
料金
Each second of video generation uses 5 credits, and you have 525 credits left. upgrade to get more credits.
1秒の動画を生成するために5クレジットが必要だそうです。
アカウント作成時に525クレジットが付与されました。つまり125秒分です。
以下の5つのプランがあります。年払いだと20% offです。今回は無料のBasicで進めます。
- Basic:無料、125クレジット/月
- Standard:$15/月、625クレジット/月
- Pro:$35/月、2250クレジット/月
- Unlimited、$95/月、ビデオ生成無制限
- Enterprise:大規模なチーム、組織向けのカスタム
クレジット数等のビデオ生成に関するもの以外にも違いがありますので詳しくはpricingをご覧ください。
Gen-2の設定項目
トップページからGen-2のページに移動します。
TEXT、IMAGE、IMAGE + DESCRIPTIONの3つが選べますが、まずはTEXTでやってみることにします。
設定項目としては保存先(Private or Shared)の他に以下が変更可能ですが、まずはデフォルトのままとします。
- Seed:シード値
- Interpolate:フレームのスムースアウト有無、デフォルトは有
- Upscale(有料プランのみ):高解像度化
- Remove watermark(有料プランのみ):透かしの削除
- Generatl Motion:動きの強さ(0〜10)、デフォルトは5
-
Camera Motion:カメラの動き(-10〜10)、デフォルトはすべて0
- Horizontal
- Pan
- Roll
- Vertical
- Tilt
- Zoom
-
Add Style:スタイル追加、デフォルトは無し
- 3D Cartoon、SD Renderなど33種類
-
比率:デフォルトは16:9
- 16:9
- 9:16
- 1:1
- 4:3
- 3:4
- 21:9
テキストから動画生成
「A 28-year-old woman is walking on the streets of Tokyo.」というプロンプトを入力してみました。訳すと「28歳の女性が東京の街を歩いています」ですね。
Generate 4sを押してしばらく待ちます。1分ぐらいでしょうか。
生成された動画が以下です。
東京っぽい(新宿通りっぽい)街並みを女性が歩いていますね。
後ろ姿だけでは年齢がどこまで反映されているかもなんとも言えないですが、車が逆向きに走っていたりもしますが、プロンプトに従ってはいます。
この動画に対してさらにExtend 4sを押すと、8秒の動画が生成できます。
Extend 4sは合計3回できるそうです。つまり最大で16秒の動画が生成できます
テキストから動画生成 - 2
せっかくなのでもう一つ試してみましょう。
「An elderly man happily holding bread in his hands」つまり「パンを手に持って喜んでいる年配の男性」を生成してみることにします。
また、設定も少しいじってみました。
Generatl Motion(動きの強さ)を10にしてCamera MotionのVertical(垂直方向)を10にしてみました。
生成された動画は以下です。
カメラワークは上方向にのみ動くと思っていたので意図通りではないのですが、いい動画です。
老人がすっごい喜んでる。
見ているこちらが嬉しくなってしまうような動画が出来上がりました。
画像から動画生成
次にIMAGEを指定して動画を生成してみます。
手元の画像をアップロードするとそれを1フレーム目とした上で動画を生成してくれる機能です。
今回はこちらの画像を使ってみます。
過去記事「「食パンをくわえて走る女子高生」のようにかなりレアと思われる画像をChatGPTのDALL·E 3で次々と生成してみた」で生成した画像です。
あえてごちゃごちゃした画像を選んでみました。
そして生成された動画が以下です。
人物たちが動いていますね。
かなり崩れも見られますが、きっちり元画像が活かされています。
画像から動画生成 - Motion Brush
Motion Brushという機能を使って、動かしたい部分を具体的に指定することができます。
この機能を使って、メインの女性を左側へと歩かせてみたいと思います。
女性だけをブラシで塗り、左方向へ移動させるためにHorizontalとして -10.0 を指定します。
ブラシは5つまで指定できるようです。つまり、5箇所に別々の動きを持たせられるということでしょう。
そして生成された動画は以下です。
やはり崩れはあるものの、ちゃんと左へと歩いています。
意図通りです。
最後に
画像にテキストをつけて動画生成を行うIMAGE + DESCRIPTIONについてはまた別の機会にでも記事にできればと思います。
それと、今回生成した動画はすべて4秒なので、16秒まで延ばしたものも作成してみたい。
時間をかければ、かなり狙った動きに近いものを生成できそうです。
本当にすごい。
宣伝
SupershipのQiita Organizationを合わせてご覧いただけますと嬉しいです。他のメンバーの記事も多数あります。
Supershipではプロダクト開発やサービス開発に関わる方を絶賛募集しております。
興味がある方はSupership株式会社 採用サイトよりご確認ください。