「12 Days of OpenAI」3日目の発表は、Sora という待望のビデオ生成サービス。
前回までは o1 や Reinforcement Fine-Tuning といった高性能なテキストモデルの話題でしたが、今回は一気に映像の世界へと踏み込んできました。「ついに来たか!」と思わず身を乗り出してしまいました。
この記事はChatGPT Advent Calendar 2024の8日目です(空いていたので書いてみました)今年は「12 Days of OpenAI」ということで毎日発表がありましたが、その内容を復習しながらまとめます
Sora って何?
Sora は テキストや画像、あるいは複数の場面を並べた“ストーリーボード” から、驚くほど自然な動画を作り出すプラットフォームです。これまでもいくつかのAIツールが映像生成を試みてはいましたが、OpenAI が本格的に手がけるのは今回が初。今回リリースされた “Sora Turbo” は、今年の初めに「世界シミュレーション(World Simulation)」という形で一部公開されていたモデルを高速化&軽量化したものだそうで、ユーザーが簡単に使える製品レベルに仕上がっているのがポイント。
なにが嬉しいのか
-
テキストだけじゃない、映像の時代
文字ベースの AI だけでは表現しきれないものを、動画生成で補える。創作者にとっては新しいツールが手に入るワクワク感がある。 -
単なる投稿サイトではなく「作って共有する場」
Sora には “Explore” というフィードが用意されていて、みんなが作った動画を観賞できるだけでなく、どうやって作ったか(テキストやストーリーボードなどの手順)までも追える。気になった動画があれば、自分で「Remix(リミックス)」機能を使ってアレンジできるのが斬新。 -
ChatGPT Plus/Pro で使える
既存の ChatGPTユーザー(Plus や Pro)なら追加料金なしで Sora が使える。- Plus ユーザー: 月50回の生成が可能
-
Pro ユーザー: “Slow Queue” というやや遅めの生成は無制限、速い通常生成は月500回まで。
動画生成のクオリティや長さ、解像度などで必要な計算量も変わるので、自分にあった形で使い分けるイメージですね。
実際の使い方をざっくり紹介
動画ではいくつものデモが披露されていて、観ているだけでもかなり楽しい。ざっくりどういう操作をするのか整理してみます。
Library と Explore
- Library: 自分がこれまでに作成した動画や下書きの管理画面。グリッド表示やフォルダ分けができるので、複数のプロジェクトを同時に進めるときでも便利そう。
- Explore: コミュニティの作品を流し見できるフィード。「その作品はどんな手法で生成されたか?」がカード形式で示されるので、自分でも真似しやすい。
シンプルな動画生成
Library から “Composer” というテキスト入力欄へ行き、 「曖昧なイメージやシチュエーションを文章化」 してリクエストする。たとえば「砂漠を歩くマンモス」なんて入力すると、Sora が数秒から数十秒で複数パターンの5~20秒動画を吐き出してくる。
このとき解像度(480p~1080p)やアスペクト比、動画の本数を指定可能。ひとつだけでなく4パターン同時生成もできるのが嬉しい。
Remix/Recut/Loop/Blend — 豊富なエディット機能
- Remix: 作成した動画の内容をテキストで変更する機能。たとえば「マンモスをロボットに置き換えて」と指示すると、本当にマンモスがロボットに変身する。
- Recut: 既存の動画を時間軸でトリミングしたり、前後をストーリーボードで補足したりして継ぎ足す。
- Loop: 動画の冒頭と結末をつないで永遠にループ再生するための機能。繋ぎ目が自然になるように補完フレームを挿入してくれる。
- Blend: 2つの動画を“ミックス”して、新たなスタイルに落とし込む不思議な機能。例として「マンモス動画 + ロボット動画」をブレンドさせれば、どんなカオスな映像になるかは想像するだけでニヤニヤしてしまう。
Storyboard(ストーリーボード)
今回の目玉機能の一つ。時間軸をいくつかに区切って、場面や動きをテキストで指示できる。
たとえば「鶴が立っている → 5秒後に水中から魚をくわえる」みたいな感じにシーンを並べていくと、その通りの動画を生成してくれる。部分的に画像をアップして「ここからシームレスに動画化」なんて使い方も可能。
正直、初見では「これで映画が作れるのでは…?」と思ったが、開発陣いわく「そこまで大規模な動画はまだ無理」とのこと。でも将来的にはもっと長尺にも対応していきそうな予感がします。
対応地域や注意点
- 対応地域: アメリカや多くの国で同時ローンチ。ただし、欧州やイギリスでは未対応で、具体的な解禁時期は未定とのこと。
- 利用プラン: ChatGPT Plus なら月50回、Pro ならもっとたくさん。解像度次第で“高コスト”になる場合もあるので、うまくやりくりしよう。
- 安全性: やはり映像生成となると肖像権や誹謗中傷など、いろいろな問題が出やすい。OpenAI側もモデレーションにはかなり気を使っているようで、リリース時点で厳しめに制限している部分もある模様。ユーザーからのフィードバックを受けて逐次調整していくようです。
個人的な感想
個人的に刺さったのは「Remix」と「Storyboard」。どちらも “完成映像の後からシーンを変える” みたいな機能で、普通の動画編集ソフトだとあり得ない体験。
Remix であっさりキャラを差し替えられるのは、もはやゲームか映画の “神の視点” みたいで胸が踊るし、Storyboard のタイムライン式 UI は、もはや「文章+タイムライン」の設計が標準になるんじゃないかと思うくらいにしっくり来ました。
これがローンチ直後のバージョンで、今後まだまだ発展するというのだから恐ろしい。マルチモーダルAIの「1つの完成形」が、段々と見えてきた気がします。
ヨーロッパを含む対応外の地域もいずれは使えるようになるはずなので、気になる方は続報を要チェックですね。