私のClaude Codeが任意の動画を瞬時に「見る」方法（実践チュートリアル）

Posted at 2026-04-29

タイトル：私のClaude Codeが任意の動画を瞬時に「見る」方法（実践チュートリアル）

市販されているAI動画要約ツールの99%は「盲目」です。字幕テキストしか抽出しないため、動画内のチャートやコード、UI画面といった視覚的なコンテキストを完全に見落とします。

安価にLLMへ「視覚」を与える極客の解決策

Gemini 1.5 Proのような高価なマルチモーダル動画モデルを使う必要はありません。動画は本質的に「フレーム（画像）」と「スクリプト（字幕）」の組み合わせです。

私たちは2つの古くからの強力なCLIツール（yt-dlpとffmpeg）を利用します。

これをClaudeに渡すことで、2時間の動画をわずか2分、しかも約1ドルのAPIコストで完全に「理解」させることができます。

高価なSaaSに頼るのをやめ、CLIを使ってローカルでAIに「目」を持たせましょう。