イントロダクション
私は釣りが趣味で、日々の釣行を動画に記録しています。
YouTubeは、私にとって「作品を発表する場」というよりも、釣り動画の置き場のような存在です。
したがって、手動で凝った編集を行うモチベーションは正直あまりありません。
そもそも広告収益のビジネスモデルは“上位数%による独占構造”にある点で、初期のWeb広告時代から本質的には変わっていません。
【視聴者トラフィック】
│
▼
┌────────────────────────────────────────────┐
│ YouTubeプラットフォーム │
│ ──────────────────────────────────────── │
│ ・広告主からの収益を管理 │
│ ・トラフィック誘導のアルゴリズムを制御 │
│ ・上位チャンネルへの収益集中 │
└──────────────────▲─────────────────────────┘
│
│広告収益・露出
│
┌─────────────────────────────────────────────────────────┐
│ クリエイター階層構造 │
│──────────────────────────────────────────────────────────│
│ 上位チャンネル(トップ1〜3%) │→ 収益独占・大量露出 │
│ 中堅チャンネル(数%) │→ 収益微増・一部露出 │
│ 下位チャンネル(大多数) │→ 収益微小・アルゴリズム次第 │
└─────────────────────────────────────────────────────────┘
動画配信という高コストなサービスを維持するため、YouTubeは莫大な初期投資を行い、現在は「回収フェーズ」に入っていると考えられます。
そのため、私のような小規模のチャンネルには「生かさず殺さず」程度の収益を与える一方で、プラットフォーム全体を支えるための“良質なコンテンツの供給源”としての役割が期待されているように感じます。
つまり、無数のクリエイターたちが血の滲むような努力で積み上げた動画群こそが、YouTubeというブランドを支えており、結果として上位チャンネルがそのトラフィックを一手に引き寄せていく
それがこの構造の実態です。
| 層 | 構成比 | 収益配分 | 役割 |
|---|---|---|---|
| 上位チャンネル | 約1〜3% | 広告収益の大部分を独占 | ブランド牽引・広告価値の中心 |
| 中堅チャンネル | 数% | 一部トラフィックを獲得 | トピック供給・限定的露出 |
| 小規模チャンネル | 90%以上 | 微小な収益 | エコシステム維持・多様性の供給 |
そんな中で、私が動画編集を行うモチベーションは、
「たまたま面白い魚が釣れた」
「たまにはネタ動画を作ってみたい」
せいぜいその程度です。
だからこそ私は考えました。
「編集作業そのものを、AIに自動化させればいい」と。
本記事では、そうした発想から生まれた
VLM(Vision-Language Model)× LLM(Large Language Model)を組み合わせた
動画自動編集パイプラインの構築について紹介します。
🧠 VLMとは?
VLM(Vision-Language Model)とは、
画像や映像とテキストを同時に理解できるAIモデルのことです。
従来のLLM(Large Language Model)は「テキストのみ」を扱うものでした。
一方、VLMはカメラで捉えた視覚情報(画像・動画フレーム)を入力し、
そこに含まれる物体・状況・文脈を言語として説明できる点が大きな特徴です。
たとえばVLMに以下のような画像を入力すると:

「磯で大きな魚を釣り上げている男性」
というような自然言語による説明文(キャプション)を自動生成できます。
この仕組みを応用すれば、動画の中のフレームごとに「何が起きているか」をAIが理解し、
その情報をLLMに渡して要約や編集指示を生成することが可能になります。
代表的なVLMには以下のようなものがあります:
| モデル名 | 開発元 | 特徴 |
|---|---|---|
| CLIP | OpenAI | 画像とテキストを同一ベクトル空間にマッピング |
| BLIP / BLIP-2 | Salesforce | 画像キャプション生成・視覚質問応答が可能 |
| LLaVA | Academia & OpenAI系 | LLMに視覚情報を統合した対話型VLM |
| Qwen2-VL | Alibaba | 高精度かつ軽量で動画理解にも応用可能 |
| PaliGemma | オープンソースで画像・テキスト統合処理が可能 |
これにより、動画の各フレームから
「魚を釣り上げた瞬間」「竿が大きくしなっている場面」などのイベントを抽出し、
その情報をLLMに渡して自動編集につなげることができます。
💬 LLMとは?
LLM(Large Language Model)とは、
大量のテキストデータを学習して言語を理解・生成できるAIモデルのことです。
人間が「文章を読む」「考える」「答える」ような処理を、
統計的な学習によって模倣できる点が特徴です。
代表的なモデルとしては、次のようなものがあります:
| モデル名 | 開発元 | 特徴 |
|---|---|---|
| GPTシリーズ | OpenAI | ChatGPTなどに搭載。汎用的で多言語対応力が高い |
| Llama 3 | Meta | オープンモデルの代表格。ローカル推論にも適する |
| Gemma / Gemini | 高精度な推論と検索連携に強い | |
| Claude | Anthropic | 長文処理や安全性設計に重点を置く |
| Mistral / Mixtral | Mistral AI | 軽量で高速。商用・ローカル実装に適している |
🧠 LLMが得意とすること
- テキスト生成(要約、翻訳、説明文作成など)
- 意味理解(質問応答、意図解析、分類など)
- 構造化出力(コード生成、JSON生成、SQL構築など)
- 文脈処理(過去のやり取りや一貫性を保持した応答)
🔗 VLMとの違いと役割
| 項目 | VLM | LLM |
|---|---|---|
| 入力データ | 画像・映像+テキスト | テキストのみ |
| 出力内容 | キャプション、説明文、検出結果など | 文章・要約・スクリプトなど |
| 主な役割 | 視覚的理解 | 言語的思考・生成 |
| 本記事での使い方 | 映像内容をテキスト化 | テキストをもとに編集方針・指示を生成 |
⚙️ 本プロジェクトでの役割分担
- VLM
→ 動画の各フレームを解析し、「何が起きているか」を自然文で説明する - LLM
→ その説明文を基に、「どのシーンを残すか」「どう編集すべきか」を判断・指示する
このように、
VLMが“見るAI”、LLMが“考えるAI”
という役割分担で動作しています。
🧩 VLMとLLMを組み合わせた動画自動編集パイプライン(概念図)
| 段階 | 処理内容 | 使用技術(例) |
|---|---|---|
| 🎥 動画ファイル | カメラやYouTube素材 | mp4, mov, mkv など |
| 🖼️ フレーム抽出 | 一定間隔で静止画を生成 | FFmpeg, OpenCV |
| 👁️ VLM | 画像からテキスト説明を生成 | Vision-Language Model |
| 🧠 LLM | キャプションを解析し編集方針を決定 | Large Language Model |
| ✂️ 編集スクリプト生成 | カット範囲・タイトル/説明/タグ・要約作成 | Python スクリプトなど |
| 🎬 自動編集処理 | 実際の編集を自動で実行 | FFmpeg, moviepy など |
| 📦 出力動画 | 要約済み・タイトル付き動画 | ローカル保存 / プレビュー |
| ☁️ アップロード | 生成メタデータ(タイトル/説明/タグ/公開状態)を適用してアップロード | YouTube Data API v3, google-api-python-client, OAuth2, Resumable Upload(サムネ: thumbnails.set、公開予約: status.publishAt) |
0) 全体アーキテクチャ(コンポーネント俯瞰)
1) 取り込み〜分割(Frame Extract)
2) VLM解析(キャプション生成)
3) LLM計画(編集方針・要約・メタデータ)
4) 編集スクリプト生成(FFmpegコマンド等)
5) レンダリング(自動編集)
6) アップロード(生成メタデータ適用)
7) データモデル(簡易ER)
8) 障害・再実行(リトライ戦略)
9) 監視・可観測性
🧩 まとめ
VLM+LLMの組み合わせによって、
これまで人間が行っていた「動画を理解して編集する」プロセスを自動化できるようになりました。
しかも、必要なのは巨大なGPUクラスタではなく、
RTX 3060(12GB)クラスのGPUが1枚あれば十分。
ローカル環境で映像を解析し、要約し、編集し、
そしてYouTubeへ自動でアップロードまで完結できる時代が来ています。というか私がこさせました。
作った後で言うのも何なんですが、これってユーザ側がやることじゃないよねとは思います。プラットフォーム側が実装すべきでしょ。Youtubeに素材を上げれば自動編集するぐらいの気概は持ってほしいよねぇ…
私にできてgoogleさんにできないわけがないので、そこは色々社内のポリティクスがあったりするんでしょう(ROIとか最悪そう)ハナホジ
もはや“動画編集”は「作業」ではなく、
AIと人間の共同作業(コラボレーション) になりつつあります。
そして、この技術記事も9割型LLMが書いているという。
あなたの読んだのは私の書いた文なのか?それともLLMが書いた文なのか?怖いなー怖いなー
