背景
以前の記事で字幕付き動画を生成できるMCPを開発した。
これは静止画1枚に音声を付与するだけの機能だったが、さらに複雑な情報を動画で伝えたいと思った時に、複数の画像ないしスライドを順に表示しながら音声と字幕も付与する機能が欲しくなった。
そこで、Google Slidesで作ったプレゼンテーションを画像として取得し、speaker notesに入力したテキストを音声として読み上げ、字幕の焼き付けまで行う機能を実装した。
成果物
使い方
事前準備
Google Slidesでこのようにプレゼンテーションを作成する。
Speaker Notesに「{話者}台詞」のような書式でテキストを記入しておくと、これが音声・字幕として動画に埋め込まれる。
MCP 実行
ローカルでClaudeを起動し、スキルを呼び出してGoogle SlidesのURLを渡すだけで起動する。
1分半ほど処理をして、下記のように結果を返してくれる。
生成された動画
生成された動画をYouTubeにアップロードしてみた結果がこちら。
今後について
今は複数の話者に対応しているものの、音声だけなので声色と字幕の色にだけ反映されている。
会話形式で進める場合、立ち絵も自動で付くようになると便利だなと思っている。
Gensparkのようなスライド生成AIと併用すれば、動画編集技術がなくても気軽に自分の考えをまとめて動画にして公開できるようになるはず。
テキストやスライドのみよりも多くの人に訴求できるので、今までよりもっとクリエイターの裾野が広がればいいなと思っている。


