動画リファレンスからAIプロンプトを作るワークフローについて

Posted at 2026-06-23

動画リファレンスからAIプロンプトを作るワークフローについて

AI画像生成やAI動画生成を使っていると、プロンプトを書く前に「参考動画」を見ることがよくあります。

たとえば、次のような要素を参考にしたい場合です。

カメラアングル
ライティング
色味
被写体の動き
画面構成
映像のテンポ
雰囲気
映画的な表現

ただ、このような動画リファレンスをそのままAI生成ツールに渡せるわけではありません。最終的には、Midjourney、Stable Diffusion、Runway、Kling、Sora などで使えるプロンプトに変換する必要があります。

この「動画をプロンプトに変換する」部分が、意外と手間でした。

そこで、動画からプロンプトの下書きを生成する video to prompt というツールを作りました。

背景

プロンプトを書くとき、単純に被写体だけを説明しても、期待した結果にならないことがあります。

例えば、動画の内容が以下のようなものだったとします。

夜の街を歩く人物

動画から抽出したい情報
動画をプロンプトに変換する場合、最低限次のような情報を抽出できると便利です。

基本的なワークフロー
自分が想定している使い方は、次のような流れです。

参考にしたい動画を用意する
動画を解析する
視覚的な要素をテキスト化する
プロンプトの下書きを生成する
使用するAIツールに合わせて編集する
生成結果を見ながら調整する
重要なのは、生成されたプロンプトをそのまま最終版と考えないことです。

あくまで「下書き」として扱い、使用するモデルや目的に合わせて調整します。

プロンプト生成とプロンプト抽出の違い
通常のプロンプト生成は、ユーザーのアイデアから始まります。

未来的な都市を歩く人物の映像を作りたい
一方で、動画からプロンプトを作る場合は、すでに参考となる視覚情報があります。

つまり、ゼロからアイデアを広げるのではなく、既存の映像に含まれている情報を読み取り、AIが扱いやすい形に変換する作業です。

この違いはけっこう大きいです。

動画リファレンスには、明示的に言語化されていない情報が多く含まれています。
そのため、プロンプト抽出では「何が映っているか」だけでなく、「どのように見えるか」を記述することが重要になります。

出力例のイメージ
たとえば、入力動画が「雨の夜、ネオン街を歩く人物」だった場合、プロンプトの下書きは次のようになります。

A cinematic night street scene featuring a lone person walking through a rain-soaked urban alley, neon signs reflecting on wet pavement, blue and magenta lighting, shallow depth of field, soft haze, handheld camera movement, moody cyberpunk atmosphere, dramatic composition, realistic film look.
このような出力をベースにして、使用するツールに合わせて短くしたり、パラメータを追加したり、不要な要素を削ったりします。

どんな用途に向いているか
このワークフローは、次のようなケースで使いやすいと思います。

AI動画生成用のプロンプトを作りたい
参考動画の雰囲気を別の生成ツールで再現したい
Midjourney や Stable Diffusion 向けに視覚要素を整理したい
Runway、Kling、Sora などに使う動画プロンプトの下書きを作りたい
プロンプトライブラリを作りたい
映像のスタイル分析をテキスト化したい
特に、複数のAIツールを使っている場合、最初に動画から情報を整理しておくと、後から別の形式に変換しやすくなります。

現時点での課題
まだ改善したい点もあります。

1シーンで構成されたシンプルな動画は比較的扱いやすいですが、複数カットが入った動画や、情報量が多い映像では、出力を整理する必要があります。

また、プロンプトの最適な形式はモデルによって異なります。

例えば、画像生成向けにはスタイルや構図を強めに書いたほうがよい場合があります。
一方で、動画生成向けにはカメラ移動、時間変化、動作の連続性をより明確にしたほうがよい場合があります。

そのため、今後は出力フォーマットをもう少し用途別に整理していきたいと考えています。

まとめ
動画リファレンスは、AI生成にとってかなり有用な入力情報です。

ただし、そのままでは使いにくいため、いったんプロンプトとして言語化する必要があります。

video to prompt のワークフローは、この「映像をプロンプトに翻訳する」部分を少し楽にするためのものです。

ツールはこちらです。

そこで、動画からプロンプトの下書きを生成する video to prompt というツールを作りました。

フィードバックや質問があれば、以下までお願いします。

support@video2prompt.io

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up