unerry チーフデータサイエンティストの Mario です。
unerry Advent Calendar 2024 12/11 記事です。
Google Cloud のユーザーコミュニティである Jagu'e'r にて、2024 Award の優秀賞を頂きました。そして、2024年12月6日に行われた Jagu'e'r Park ‘24 Winter! にて、Google の AI を駆使して未来のプレゼンテーションスタイルでピッチしてきましたので、その制作裏話をお伝えします。
何が未来かと言うと、従来の一方向的なプレゼンテーションとは異なり、AI が生成した双子の AI キャラクターによる対話形式+スピーカー(私)とのインタラクティブ(っぽい)新しい発表スタイルに挑戦しました。
本当は真にリアルタイムかつインタラクティブなやり取りができるアプリを作って発表したかったのですが、開発時間と発表制約の関係で動画として制作し、スピーカーが話すパートはアフレコとなっています。
今回お手伝い頂いた双子の AI キャラクター「双葉(ふたば)&双馬(そうま)」
制作に用いたツール
それぞれのツールの使い方は記事を分けて解説していこうかと思っていますが、いったん全体の流れを簡単に。
- 企画&監督&総合演出:Gemini Advanced
- 情報収集&脚本:NotebookLM + Vertex AI Studio (Speech-to-Text)
- 音声収録 (音声化):Cloud Text-to-Speech (WaveNet)
- キャスティング (画像生成):ImageFX
- 撮影 (動画作成):Google Vids
1. 企画設計フェーズ(Gemini & NotebookLM)
1.1. Gemini での企画・設計
まず、Gemini Advance を活用してプレゼンテーションの全体構成とコンセプトを設計しました。他のスピーカーとの差別化を図るためどんなコンセプトにしたらいいか、去年の優秀賞受賞者の動画を切り取り、どんな点をコンテンツとして盛り込むべきかを提案してもらいました。
1.2. NotebookLM での情報整理
次に Notebook LMに過去の私の登壇資料やイベントブログを読み込ませ、基礎情報を体系的に整理しました。ちなみに、NotebookLM の主な特徴は以下の通りです。(Gemini より)
ドキュメント理解と要約 :
ユーザーはGoogle Drive上の特定のドキュメント群(講義ノート、学術論文、参考資料など)を「ソース」としてNotebookLMに読み込ませることができます。NotebookLMはこれらの資料を言語モデルによって解析し、全体的な内容や重要なポイントを要約してくれます。
自然言語での問い合わせ :
NotebookLMは、ユーザーが自然言語で疑問を投げかけると、関連する資料をもとに回答を生成します。たとえば、「この論文で中心的な主張は何?」「この資料群で共通して強調されている理論は?」といった質問をすると、NotebookLMが参照元ドキュメントを下敷きに回答を作成します。これにより、長大なノートや資料から必要な情報を効率よく抽出できます。
学習・調査の支援ツールとして :
学生や研究者が、多数の文献を参照しながらノートをまとめたり、短時間で概要を掴んだり、新たな考察を得たりする際に役立つようなツールとして設計されています。
2. 素材制作フェーズ (NotebookLM & Vertex AI & ImageFX & Gemini)
2.1. NotebookLM での脚本ドラフト
NotebookLM には Audio Overview という機能があり、これがまた大変便利かつ面白い。入れたソースを要約し、二人の男女が会話形式で説明してくれるというものです。これのおかげで、パーソナライズされたラジオのように情報をインプットすることが出来ます。
Notebook guide -> Audio Overview -> Load より会話を作成可能
現時点において英語しか対応していませんが、生成されたセリフを流暢な英語で読み上げる様は圧巻。また、このファイルは音声ファイルとして保存が可能なので、これをダウンロードします。
2.2. Vertex AI Studio Freeform(書き起こし)
NotebookLM で作成した脚本の叩きを Gemini で推敲したいのですが、これを Vertex AI Studio で音声の書き起こしと同時に英語→日本語に翻訳してもらいます。2024 年 12 月現時点で、Gemini Advanced は音声ファイルを扱うことが出来ないため、Vertex AI Studio を使っています。
2.3. ImageFX でキャラクターの生成
今回の題材に合うよう、ImageFX でキャラクターを生成してもらいました。NotebookLM で生成した会話が男女によるものであること、および Gemini(双子座)であることを掛けて、双子の男女を生成します。
余談ですが、ImageFX (imagen 3) はプロンプトを書くと適切に並び替えてくれる点と、他の候補を選択しやすくしてくれるので、編集がやりやすいです。一方で比較的規制が強いため、Japanese girl
といった単純なプロンプトだとポリシーにひっかかり生成できない確率が高まりますので注意。
プロンプト:Japanese girl, masterpiece , kawaii , fantasy , in the space , face turning to the side, mysterious
※ 生成当時のプロンプトとシードを失念してしまったため、再生成叶わず
2.4. Gemini での台本推敲
次に、Gemini で台本推敲してもらいます。
- キャラクターの名前、性格
- 発表時間に収まるように会話を再構成
- 色付けしたキャラクターに合わせて喋り方などを調整
NotebookLM で生成した会話が約 9 分間であったのに対し、発表の制限時間が 5 分であったことから、スピーカーが話す部分を除いて約 3 分に収めてもらうように調整します。また会話内容が若干固いため、生成した画像からキャラクターから性格と喋り方を考えてもらい、その上で台本を脚色してもらいました。
ここが結構時間かかったところの一つで、スピーカーがどこで差し込んでコメントするか、全体の流れとして分かりやすくするにはどうしたらいいか、など試行錯誤を重ねました。
2.5. 音声生成フェーズ
台本が出来上がったら、Google Cloud Speech Text-to-Speech を用いて、音声データを生成していきます。といっても、これはとても簡単で、フォームに生成したいテキストを入れて SYNTHSIZE を押すだけ。あとはスピードやピッチも調整可能です。
Cloud Speech で良いなと思ったのは、日本語にありがちな同形異音語や、専門用語(例:AI = えーあい、Jagu'e'r = じゃがー)でも正確に読み上げてくれる確率が高く、調整がそんなに発生しないことでした。
一方で、これは主観が入りますが、他の最新のモデルと比較すると読み上げの自然さが劣る点です。より自然なイントネーションにするために、セリフ側を調整することもありました。
2.6. Runway でのリンプシンク
せっかくならビジュアルインパクトを与えるためキャラクターに動きを出そうと思い、キャラクター画像と音声データからリップシンクをさせました。
ただし現時点で Google のサービスでこれを叶えるものがなかったため、ここだけ Runway を利用しています。将来的には現在一部のテストユーザーのみが触れる VideoFX で出てきて欲しいなと思ってます。
Runway リップシンク以外にも Text-to-Video、Image-to-Image、Act-One など多岐にわたるメディア生成機能を備えており、大変便利で面白いプラットフォームです。使い放題がなくクレジット方式なので、気をつけないと沼ります。
3. Vids による動画制作
これまで制作した素材を動画として構築するのですが、なるべく Google (Cloud) のプロダクト用いて制作しようと考えた結果、今年の 4 月に発表され最近プレビューでの使用が可能になった、Google Vids を用いました。公のプレゼンで Vids を使ったのは、おそらく日本最速じゃないかと思ってます。
使用感としては、AI による自動生成はほぼ使わず(使えず)、手作業での調整に最も時間がかかりましたので、正直もっと高品質な動画を作るなら別のツールの方が圧倒的にいいです。ただ、動画制作に慣れていない方、Google Slides 作成に慣れている方にとっては割と便利なツールだと思います。これから自動制作機能がどこまで進化するかに期待しています。
具体的な制作方法などは別の記事で紹介できたらと考えてます。
そして、練習へ。。。
あとがき
Jagu'e'r Park Award では何か面白いことをやりたい!との考えから始まったこのプレゼンテーションスタイルは、最終的に AI キャラクターにほぼ喋らせ、肝心のスピーカーはドヤ顔で黙って壇上をウロチョロするという奇怪な感じになりましたが、参加者からは、「新しい未来のプレゼンのインスピレーションを得られた」、「AIとの自然な掛け合いが面白かった」、「技術インパクトは圧倒的だった」といった嬉しい感想を多く頂きました。早速真似したよ!とのお声も頂き、大満足でございます。
残念ながら最優秀賞は逃してしまいましたが、AI を超える感動的なプレゼンをされた人間力が優っていたということで、最優秀賞を受賞された方、改めておめでとうございます。
AI との共生を目指し、今後は以下のような新しいことを取り入れながら、より魅力的なコンテンツをお届けしていきます。
- AI キャラクターの表情やジェスチャーの多様化・流暢さの向上
- リアルタイムでのスピーカーや観客とのインタラクション機能の強化
- マルチ言語対応
X でも AI や Google Cloud に関する情報を発信していますので、ぜひフォローください。