はじめに
この連載は、いつもは Excel と VBA の話です。今回は毛色を変えて、動画の話をします。
といっても、特別なことをしているわけではありません。AI に話しかけるだけで、ナレーションと字幕の付いた動画が一本でき上がる。その記録です。手引きと呼べるほど立派なものではないので、あくまで「事務員がこんなことをやってみました」という記録として読んでください。
きっかけは YouTube でした
始まりは、YouTube でした。「AI で動画を作る」という動画をいくつか見て、面白そうだと思ったんです。
正直、最初は難しいだろうと身構えていました。ところが、やってみると拍子抜けするくらいでした。環境のセッティングから、つまずいた所の解決まで、AI(Claude Code)がだいたい全部やってくれる。私は「こうしたい」と話すだけ。特に文字起こしのような、昔は手作業で延々とやっていた工程が、本当に一瞬で済むようになっていました。
技術が上がったというより、面倒な段取りを AI が肩代わりしてくれるので、素人でも入口に立てるようになった、という感覚です。
作ったもの ──「仮面レスラー イセドー」
練習がてら、まずは地元・秋田の紹介をやってみることにしました。題材には困りません。きりたんぽ、温泉、滝、遺跡、ラーメン。地元には、案外みんなが知らない良いものがたくさんあります。
ただ紹介するだけでは味気ないので、語り部のキャラクターを立てました。**「仮面レスラー イセドー」**です。
この名前は、AI に相談しているうちに決まりました。北秋田市には、**「伊勢堂岱(いせどうたい)遺跡」**という縄文時代の遺跡があります。「北海道・北東北の縄文遺跡群」として世界遺産にも登録された場所です。その名前をもらって「イセドー」。地元紹介がやりたいから、地元の世界遺産から名前を取った、というわけです。
それから、彼が被っている仮面にも、種明かしがあります。点が二つの目に、小さな鼻と口だけの、のっぺりした顔。「なんであんな顔なんだ」とよく言われるのですが、あれは適当に描いたものではありません。伊勢堂岱遺跡から出土した土偶(縄文時代の土の人形)の顔をモチーフにした仮面なんです。名前も、顔も、地元の世界遺産からもらっている。── そこまで決めて、ようやく「このキャラクターで地元を紹介する」という芯ができました。
最近は、その探偵版**「仮面デカ イセドー」**という新シリーズも始めました。事件を捜査するふりをして、地元のネタを紹介するコメディ仕立てです。先日は「夏なのにきりたんぽ事件」と「海でもプールでもないのにびしょ濡れ事件」を題材にしました。
夏なのにきりたんぽ事件
海でもプールでもないのにびしょ濡れ事件
再生数は、正直まだ小さいです。普通で表示が 300〜500 回、伸びても 1000 回ちょっと、いちばん見られたもので 3000 回ほど。しかもこれは「表示された回数」で、実際に最後まで見られた数はもっと少ないはずです。それでも、始めたばかりの割には悪くない手応えだと思っています。
どう作っているか ── ほぼ、会話だけ
作り方は、拍子抜けするくらい単純です。私が AI に題材を伝えると、あとは流れていきます。
- AI が題材を下調べする
- **台本(ナレーション原稿)**を書く
- 画像を生成する
- 音声を合成する
- 動画にビルドする
画像は、Gemini をブラウザ越しに動かして生成しています。API を使う方法もあるのですが、API はすぐに上限が来ますし、課金もかかります。私は Gemini の有料プラン(AI Pro)を契約しているので、ブラウザ側で生成すれば、1 日に 100 枚ほど、私の用途ではほぼ気にせず作れます(※この枚数は Google が頻繁に変えるので、最新は公式で要確認)。動画 1 本に使う画像は 7〜9 枚。1 日に 100 枚作れるなら、本数で困ることはありません。
音声は VOICEVOX を使っています。これは AI に勧められて選びました。無料で、声のキャラクターも選べて、地方紹介の素朴な雰囲気に合っています。
BGM では、地味につまずきました。配信用の曲の中には、1 分を超える動画では使えないものがあって、ショートのつもりが尺が伸びると使えなくなる。これは選び直して解決しました。こういう「やってみないと分からない引っかかり」も、記録としては書いておく価値があると思います。
動画そのものの組み立てには、Remotion を使っています。これは React で動画を作るフレームワークで、画像を何秒映すか、字幕をどこに出すか、背景をゆっくりズームさせるか、といったことをコードで(コンポーネントとして)管理できます。テロップを一枚ずつ編集ソフトで置いていく代わりに、台本から字幕とタイミングを流し込んで、まとめて組み上げる。最後に FFmpeg でエンコードして mp4 にします。
この一連 ── 下調べ → 台本 → Gemini で画像 → VOICEVOX で音声 → Remotion で組み立て → FFmpeg で書き出し ── を一本のスクリプトにまとめてあり、題材を決めれば、ほぼ 1 コマンドで通ります。私がやるのは、題材を選んで、出てきたものに「違う」と言うこと。それだけです。
でも、「丸投げ」では作れません ── ここが本題
ここからが、この記事でいちばん書きたいことです。
「会話するだけでできる」は本当です。ただし、何も渡さずに丸投げすると、AI は平気で、もっともらしく間違えます。
昨日に公開した、綴子の大太鼓を題材にしたときのことです。大太鼓は地元の本物の祭り道具で、独特の形をしています。ところが AI に任せると、それらしいけれど実物とは違う太鼓を、自信たっぷりに描いてくる。胴の模様が違う、担ぎ方の枠組みが架空、打ち手の衣装も別物。私が「違う」と言うたびに直すのですが、なかなか合いません。結局、5 回ほど描き直しました。
潮目が変わったのは、私が実物の写真を見つけて渡してからでした。Wikimedia などから本物の大太鼓の写真を集めて、「これを見て描け」と渡す。そこで初めて、緑の縄を巻いた胴も、縁の金の鋲も、横倒しの台車も、正しく描けるようになりました。でき上がったのが、この一本です。
綴子の大太鼓は世界一じゃないんじゃないか事件
これは、この連載の Excel 編で何度も書いてきたことと、まったく同じでした。
AI は、実物を渡すまで、流暢に間違える。
コードを直すときも、「コードとして正しいか」ではなく「実物のシートと整合しているか」を確かめさせると、AI は別人のように的確になりました。動画でも同じです。テキストだけで描かせると一般論で外す。本物の写真を渡すと、急に当たる。 道具は違っても、効くスイッチは同じでした。
間違えるのは、見た目だけではありません ── 事実も、会話で詰める
間違えるのは、絵だけではありません。事実も同じです。そして、その事実を詰めていく過程こそが、「会話だけで作る」の中身でした。
後日に公開予定で、「綴子ラーメン街道」という題材をやりました。「誰も知らない謎の街道」という、ちょっとした作り話を入口にしたものです。その背景を固めるために、AI と一緒に、綴子を通っていた本物の旧街道 ── 羽州街道を調べていきました。
たとえば、街道沿いに残る一里塚(江戸時代の距離標)と、いまの国道7号との位置関係を聞いたときのことです。AI は最初、「一里塚はラーメン店のすぐ隣にあります」と、もっともらしく答えてきました。これは間違いです。 私は綴子の出身で、一里塚が小学校の裏の山道にあることを知っています。国道沿いのラーメン店の隣ではありません。
「違う。それは確認したのか」と返すと、AI は調べ直しました。地図の座標を引いて距離を測り、こう訂正してきます ──「一里塚は国道7号の北、およそ250メートル。旧街道は山側、いまの国道は川沿いで、別のルートです」。最初に挙げた『隣のラーメン店』は、実際には600メートルも離れていました。こちらが地元の知識で押し返し、AI が実際に調べ直して、ようやく事実にたどり着いたわけです。
ここでも、効いたスイッチは同じでした。AI の「もっともらしい第一声」を鵜呑みにせず、「それは確認したのか/実物を見たのか」と一度疑う。すると AI は、推測から調査に切り替わって、地に足のついた答えを返してきます。「会話するだけで作れる」の『会話』は、こういう押し返しと、裏取りの往復でできています。私が出す題材と、地元の人間としての「それは違う」が、AI のリサーチと噛み合って、少しずつ事実が固まっていく。── ここが、いちばん面白い工程かもしれません。
画像は「参考を渡す」が全てでした
もう一つ、キャラクターの見た目を毎回そろえるのにも苦労しています。
イセドーは毎回同じ顔・同じ姿で出てほしい。そこで、スタイルシート(キャラクターの設定画)を一枚作って、画像生成のたびに参考として渡しています。これがあるとかなり安定します。── ただ、それでも崩れます。仮面の模様が変わったり、衣装が違ったり。完璧ではありません。
結局、私がやっていることは、「型紙」と「実物資料」を AI に渡し続けることに尽きます。スタイルシートで見た目を縛り、本物の写真で中身を縛る。そこを人間が押さえないと、AI は静かに脱線していきます。
持って帰ってほしいこと
ひとつだけ書くなら、これです。
「会話するだけで作れる」は本当。でも、良し悪しを決めるのは、結局ディレクションです。
AI は、とても優秀な制作スタッフです。下調べも、台本も、絵も、声も、編集も、話しかけるだけでこなします。でも、放っておくと崩れるし、間違える。監督は、人間がやるしかありません。型紙を用意して、実物を見せて、違うと言って、また見せる。地味ですが、そこが面白いところでもあります。
そして、白状すると ── この記事自体も、AI と会話しながら作っています。動画も会話で、記事も会話で。私がやっているのは、題材を選んで、違うと言って、実物を渡すこと。それくらいです。それでも、十分に楽しい。
おわりに
20 年、Excel のマクロと格闘してきた事務員が、いまは AI に話しかけて、地元を紹介する動画を作っています。
カメラの腕も、編集ソフトの知識も、声優の伝手も、私は何も持っていません。それでも、「綴子の大太鼓を紹介したい」と話しかけるだけで、ナレーションの付いた一本ができ上がる。しかもその主役は、地元の世界遺産から、名前も顔ももらったキャラクターです。── ほんの少し前までは、絶対にできなかったことです。
もちろん、AI は放っておけば崩れるし、間違えます。だから私は、型紙を渡し、実物を見せ、「違う」と言い続ける。地味な手綱さばきです。でも、その地味な作業の先で、自分の地元が、会ったこともない誰かの画面に、ちゃんと映る。
再生数は、たいしたことありません。世界初でもありません。それでも、それで十分なんです。地方の事務員が、話しかけるだけで、自分の町を世界に向けて紹介できる。その入口に立てているというだけで、私には、もう十分すぎるくらい面白い時代です。
紹介した動画 ──「仮面デカ イセドー」
本文で触れた3本です。よかったら見てやってください。
夏なのにきりたんぽ事件
海でもプールでもないのにびしょ濡れ事件
綴子の大太鼓は世界一じゃないんじゃないか事件







