0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

会話するだけで動画が作れる ── 地元を紹介する「仮面デカ イセドー」を作っている話

0
Posted at

はじめに

この連載は、いつもは Excel と VBA の話です。今回は毛色を変えて、動画の話をします。

といっても、特別なことをしているわけではありません。AI に話しかけるだけで、ナレーションと字幕の付いた動画が一本でき上がる。その記録です。手引きと呼べるほど立派なものではないので、あくまで「事務員がこんなことをやってみました」という記録として読んでください。

完成した動画のイメージ(仮面デカ イセドー)
2.png

きっかけは YouTube でした

始まりは、YouTube でした。「AI で動画を作る」という動画をいくつか見て、面白そうだと思ったんです。

正直、最初は難しいだろうと身構えていました。ところが、やってみると拍子抜けするくらいでした。環境のセッティングから、つまずいた所の解決まで、AI(Claude Code)がだいたい全部やってくれる。私は「こうしたい」と話すだけ。特に文字起こしのような、昔は手作業で延々とやっていた工程が、本当に一瞬で済むようになっていました。

技術が上がったというより、面倒な段取りを AI が肩代わりしてくれるので、素人でも入口に立てるようになった、という感覚です。

作ったもの ──「仮面レスラー イセドー」

練習がてら、まずは地元・秋田の紹介をやってみることにしました。題材には困りません。きりたんぽ、温泉、滝、遺跡、ラーメン。地元には、案外みんなが知らない良いものがたくさんあります。

ただ紹介するだけでは味気ないので、語り部のキャラクターを立てました。**「仮面レスラー イセドー」**です。

この名前は、AI に相談しているうちに決まりました。北秋田市には、**「伊勢堂岱(いせどうたい)遺跡」**という縄文時代の遺跡があります。「北海道・北東北の縄文遺跡群」として世界遺産にも登録された場所です。その名前をもらって「イセドー」。地元紹介がやりたいから、地元の世界遺産から名前を取った、というわけです。

それから、彼が被っている仮面にも、種明かしがあります。点が二つの目に、小さな鼻と口だけの、のっぺりした顔。「なんであんな顔なんだ」とよく言われるのですが、あれは適当に描いたものではありません。伊勢堂岱遺跡から出土した土偶(縄文時代の土の人形)の顔をモチーフにした仮面なんです。名前も、顔も、地元の世界遺産からもらっている。── そこまで決めて、ようやく「このキャラクターで地元を紹介する」という芯ができました。

イセドーの顔のモチーフ=伊勢堂岱遺跡の土偶
4.png

最近は、その探偵版**「仮面デカ イセドー」**という新シリーズも始めました。事件を捜査するふりをして、地元のネタを紹介するコメディ仕立てです。先日は「夏なのにきりたんぽ事件」と「海でもプールでもないのにびしょ濡れ事件」を題材にしました。

夏なのにきりたんぽ事件

海でもプールでもないのにびしょ濡れ事件

再生数は、正直まだ小さいです。普通で表示が 300〜500 回、伸びても 1000 回ちょっと、いちばん見られたもので 3000 回ほど。しかもこれは「表示された回数」で、実際に最後まで見られた数はもっと少ないはずです。それでも、始めたばかりの割には悪くない手応えだと思っています。

どう作っているか ── ほぼ、会話だけ

作り方は、拍子抜けするくらい単純です。私が AI に題材を伝えると、あとは流れていきます。

  1. AI が題材を下調べする
  2. **台本(ナレーション原稿)**を書く
  3. 画像を生成する
  4. 音声を合成する
  5. 動画にビルドする

画像は、Gemini をブラウザ越しに動かして生成しています。API を使う方法もあるのですが、API はすぐに上限が来ますし、課金もかかります。私は Gemini の有料プラン(AI Pro)を契約しているので、ブラウザ側で生成すれば、1 日に 100 枚ほど、私の用途ではほぼ気にせず作れます(※この枚数は Google が頻繁に変えるので、最新は公式で要確認)。動画 1 本に使う画像は 7〜9 枚。1 日に 100 枚作れるなら、本数で困ることはありません。

音声は VOICEVOX を使っています。これは AI に勧められて選びました。無料で、声のキャラクターも選べて、地方紹介の素朴な雰囲気に合っています。

BGM では、地味につまずきました。配信用の曲の中には、1 分を超える動画では使えないものがあって、ショートのつもりが尺が伸びると使えなくなる。これは選び直して解決しました。こういう「やってみないと分からない引っかかり」も、記録としては書いておく価値があると思います。

動画そのものの組み立てには、Remotion を使っています。これは React で動画を作るフレームワークで、画像を何秒映すか、字幕をどこに出すか、背景をゆっくりズームさせるか、といったことをコードで(コンポーネントとして)管理できます。テロップを一枚ずつ編集ソフトで置いていく代わりに、台本から字幕とタイミングを流し込んで、まとめて組み上げる。最後に FFmpeg でエンコードして mp4 にします。

Remotion で字幕とタイミングを組んでいる作業画面
1.png

この一連 ── 下調べ → 台本 → Gemini で画像 → VOICEVOX で音声 → Remotion で組み立て → FFmpeg で書き出し ── を一本のスクリプトにまとめてあり、題材を決めれば、ほぼ 1 コマンドで通ります。私がやるのは、題材を選んで、出てきたものに「違う」と言うこと。それだけです。

でも、「丸投げ」では作れません ── ここが本題

ここからが、この記事でいちばん書きたいことです。

「会話するだけでできる」は本当です。ただし、何も渡さずに丸投げすると、AI は平気で、もっともらしく間違えます。

昨日に公開した、綴子の大太鼓を題材にしたときのことです。大太鼓は地元の本物の祭り道具で、独特の形をしています。ところが AI に任せると、それらしいけれど実物とは違う太鼓を、自信たっぷりに描いてくる。胴の模様が違う、担ぎ方の枠組みが架空、打ち手の衣装も別物。私が「違う」と言うたびに直すのですが、なかなか合いません。結局、5 回ほど描き直しました。

潮目が変わったのは、私が実物の写真を見つけて渡してからでした。Wikimedia などから本物の大太鼓の写真を集めて、「これを見て描け」と渡す。そこで初めて、緑の縄を巻いた胴も、縁の金の鋲も、横倒しの台車も、正しく描けるようになりました。でき上がったのが、この一本です。

綴子の大太鼓は世界一じゃないんじゃないか事件

これは、この連載の Excel 編で何度も書いてきたことと、まったく同じでした。

AI は、実物を渡すまで、流暢に間違える。

コードを直すときも、「コードとして正しいか」ではなく「実物のシートと整合しているか」を確かめさせると、AI は別人のように的確になりました。動画でも同じです。テキストだけで描かせると一般論で外す。本物の写真を渡すと、急に当たる。 道具は違っても、効くスイッチは同じでした。

間違えるのは、見た目だけではありません ── 事実も、会話で詰める

間違えるのは、絵だけではありません。事実も同じです。そして、その事実を詰めていく過程こそが、「会話だけで作る」の中身でした。

後日に公開予定で、「綴子ラーメン街道」という題材をやりました。「誰も知らない謎の街道」という、ちょっとした作り話を入口にしたものです。その背景を固めるために、AI と一緒に、綴子を通っていた本物の旧街道 ── 羽州街道を調べていきました。

たとえば、街道沿いに残る一里塚(江戸時代の距離標)と、いまの国道7号との位置関係を聞いたときのことです。AI は最初、「一里塚はラーメン店のすぐ隣にあります」と、もっともらしく答えてきました。これは間違いです。 私は綴子の出身で、一里塚が小学校の裏の山道にあることを知っています。国道沿いのラーメン店の隣ではありません。

「違う。それは確認したのか」と返すと、AI は調べ直しました。地図の座標を引いて距離を測り、こう訂正してきます ──「一里塚は国道7号の北、およそ250メートル。旧街道は山側、いまの国道は川沿いで、別のルートです」。最初に挙げた『隣のラーメン店』は、実際には600メートルも離れていました。こちらが地元の知識で押し返し、AI が実際に調べ直して、ようやく事実にたどり着いたわけです。

ここでも、効いたスイッチは同じでした。AI の「もっともらしい第一声」を鵜呑みにせず、「それは確認したのか/実物を見たのか」と一度疑う。すると AI は、推測から調査に切り替わって、地に足のついた答えを返してきます。「会話するだけで作れる」の『会話』は、こういう押し返しと、裏取りの往復でできています。私が出す題材と、地元の人間としての「それは違う」が、AI のリサーチと噛み合って、少しずつ事実が固まっていく。── ここが、いちばん面白い工程かもしれません。

画像は「参考を渡す」が全てでした

もう一つ、キャラクターの見た目を毎回そろえるのにも苦労しています。

イセドーは毎回同じ顔・同じ姿で出てほしい。そこで、スタイルシート(キャラクターの設定画)を一枚作って、画像生成のたびに参考として渡しています。これがあるとかなり安定します。── ただ、それでも崩れます。仮面の模様が変わったり、衣装が違ったり。完璧ではありません。

結局、私がやっていることは、「型紙」と「実物資料」を AI に渡し続けることに尽きます。スタイルシートで見た目を縛り、本物の写真で中身を縛る。そこを人間が押さえないと、AI は静かに脱線していきます。

「違う、実物を見ろ」── 実物資料を渡して直していく
3.png

持って帰ってほしいこと

ひとつだけ書くなら、これです。

「会話するだけで作れる」は本当。でも、良し悪しを決めるのは、結局ディレクションです。

AI は、とても優秀な制作スタッフです。下調べも、台本も、絵も、声も、編集も、話しかけるだけでこなします。でも、放っておくと崩れるし、間違える。監督は、人間がやるしかありません。型紙を用意して、実物を見せて、違うと言って、また見せる。地味ですが、そこが面白いところでもあります。

そして、白状すると ── この記事自体も、AI と会話しながら作っています。動画も会話で、記事も会話で。私がやっているのは、題材を選んで、違うと言って、実物を渡すこと。それくらいです。それでも、十分に楽しい。

おわりに

20 年、Excel のマクロと格闘してきた事務員が、いまは AI に話しかけて、地元を紹介する動画を作っています。

カメラの腕も、編集ソフトの知識も、声優の伝手も、私は何も持っていません。それでも、「綴子の大太鼓を紹介したい」と話しかけるだけで、ナレーションの付いた一本ができ上がる。しかもその主役は、地元の世界遺産から、名前も顔ももらったキャラクターです。── ほんの少し前までは、絶対にできなかったことです。

もちろん、AI は放っておけば崩れるし、間違えます。だから私は、型紙を渡し、実物を見せ、「違う」と言い続ける。地味な手綱さばきです。でも、その地味な作業の先で、自分の地元が、会ったこともない誰かの画面に、ちゃんと映る

再生数は、たいしたことありません。世界初でもありません。それでも、それで十分なんです。地方の事務員が、話しかけるだけで、自分の町を世界に向けて紹介できる。その入口に立てているというだけで、私には、もう十分すぎるくらい面白い時代です。


紹介した動画 ──「仮面デカ イセドー」

本文で触れた3本です。よかったら見てやってください。

夏なのにきりたんぽ事件

海でもプールでもないのにびしょ濡れ事件

綴子の大太鼓は世界一じゃないんじゃないか事件


0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?