Google NotebookLMの音声概要機能が日本語でも使えるようになりました。
これ、超絶なんですけれどQiita記事もまだ少ないので、私も試した結果を。
NotebookLM『音声概要』
NotebookLMとは
- アップロードしたドキュメントを生成AIで検索できるだけではなく、情報を構造化して整理してくれる
ライセンスと制限
- 無料版
- 音声生成: 1 日あたり 3 回
- Q&A: 1 日あたり 50 回
- ソース: ノートブック 1 つあたり 50 個
- ノートブック: ユーザー 1 人あたり 100 個
- 有料版
- 制限の余裕が大きくなります
- セキュリティ
Google はお客様のプライバシーを重視しており、NotebookLM のトレーニングに個人データを使用することは一切ありません。
- とはなっておりますが、プライベートな内容などは規約をよく読む、有料プランにする、社外秘情報などならEnterpriseライセンスにする等した方がいいですね
- 機能
- ドキュメントを元にしたQ&Aができる
- 学習ガイド
- そのドキュメントの学ぶべき要点、順番、理解度クイズなどを生成
- ブリーフィング・ドキュメント
- 上司とかに「こういうものです」と要点を伝えるための資料ですね
- FAQ
- FAQを作ってくれる
- タイムライン
- 時系列の内容がある場合は簡易年表と重要人物などをリストアップ
- マインドマップ
- ドキュメントの内容をロジックツリーとして表示
これだけでもすごいのですが、音声概要は次節
NotebookLM 音声概要とは
長文の技術ドキュメントとか、複数の論文など、放り込んで「音声概要」とすると7-8分の対話形式でわかりやすく解説してくれます。
数百ページの調査レポートとか、学術論文とか、どうしてますか?誰かわかりやすくかいつまんで説明してくれよ、とYoutube動画を探したりしてますよね。
それが自分でできてしまいます。無料で。
やり方
-
Googleアカウントを無料で作成しておく
-
新規作成をクリック
-
使いたいドキュメントをアップロード
- 公開ドキュメントとか論文ならまず問題ないでしょう。
プライベートな資料などは扱わないこと。扱う場合は規約をよくご確認ください。
使用例
長文の技術レポート
例えばJST/CRDSの俯瞰報告書、さまざまな科学技術分野の研究・技術動向の詳細なレポートです。
「システム・情報科学分野」のレポートはなんと700ページ超です。
PDFでNotebookLMにアップします。
- 音声概要 06:28
研究論文
- 今回はGemini Diffusionで話題の拡散モデルの元となる4つの論文(これはChatGPT 4oでリストアップしました)。Gemini Diffusionの詳細は公開されていないですが、下記の重要論文について手っ取り早く概要を知ろうというモチベーション
- そもそも拡散モデルとは
- DDPM。ノイズから精彩な画像とみんなで驚いたやつ
- 画像生成の主流Stabule Diffusionの元
- Gemini Diffusionではないですがテキストにも拡散モデルが使えるよ
- 🧪 基礎的な拡散モデル(確率過程としての定式化)
- 論文名: Deep Unsupervised Learning using Nonequilibrium Thermodynamics
- 著者: Jascha Sohl-Dickstein et al.
- 年: 2015
- 概要: 拡散モデルの原点。前方過程でデータをガウスノイズで壊し、逆過程を学習するというアイデアを初めて定式化。
- 🎨 画像生成でのブレイクスルー DDPM
- 論文名: Denoising Diffusion Probabilistic Models
- 著者: Jonathan Ho, Ajay Jain, Pieter Abbeel
- 年: 2020
- 概要: 拡散モデルを用いた画像生成で非常に高品質な結果を初めて実現。以後の多くの研究の基盤。
- 🧠 高速化・性能向上 Latent Diffusion Models (LDM) Stable Diffusionのもと
- 論文名: High-Resolution Image Synthesis with Latent Diffusion Models
- 著者: Robin Rombach et al.(CompVis)
- 年: 2022
- 概要: Stable Diffusion の基盤。潜在空間での拡散処理によりメモリ効率とスピードが大幅に向上。
- 🧠 テキスト生成や言語との統合 Diffusion-LM
- 論文名: Diffusion-LM Improves Controllable Text Generation
- 著者: Yitong Li et al.
- 年: 2022
- 概要: 拡散モデルを自然言語処理(NLP)に応用した初期の代表例。テキスト生成の多様性と制御性を向上。
PDFでこれらをUpするとこんな画面。
- 音声概要 08:37
聞いてみてください。私は驚愕しました。
内容が難しければ高校生にもわかるようにとか、より詳しく知りたければOOについて技術詳細をとか指示を追加できますし(無料版では1日3回までだけですけどね)。誰でも無料で試せるので、やってみてください。
🎰💰無料版で勝利の快感を是非味わって欲しいです💰🎰
ChatGPT×AI Studioでも再現してみた
というわけでGoogleの威力を知ったわけですが、私はLLMは1つのサービスを使い込んだ方がより深く知れる。という立場なのでChatGPTしか課金(Plus)しておらず。
拡散モデル4つの論文バージョンをChatGPTで作成できるか試みました。
ステップ
GPT o3で論文を対話形式で要約
(4つの論文をUploadして)
これらの論文を読み、論文にないことは答えないで。
太郎と花子の対話形式で以下を初心者にもわかりやすいように解説して
太郎:進行、聞き手
花子:解説者
話の内容
これらの論文は何を論じているか
今までと違って何がすごいのか
今までの課題が何で、この研究で何が解決されたのか
世の中が驚いた成果の代表例や精度指標の達成度
ただ、本手法でもまだ限界がある点
7分ほどの日本語のトークスクリプトでまとめて
回答:長いので折りたたみ
---太郎:さて今日は、拡散モデル(Diffusion Model)に関する4 本の重要論文を取り上げます。まずは「それぞれ何を論じているか」からお願いします。
花子:
- Sohl-Dickstein ら(2015) は“拡散確率モデル”の原型を提示し、単純なノイズ分布からデータ分布へ“逆拡散”する生成過程を学習できることを示しました。
- Ho ら(2020) の DDPM 論文は、この枠組みを深層 U-Net で再定式化し、高画質サンプルを生成できる汎用手法として確立しました。
- Rombach ら(2022) はピクセル空間ではなく事前学習オートエンコーダの潜在空間で拡散を行う Latent Diffusion Model (LDM) を提案し、計算量を大幅に削減しつつ高解像度合成を実現しました。
- Li ら(2022) は Diffusion-LM を開発し、連続拡散を用いた非自己回帰型テキスト生成で細粒度制御(構文木や長さなど)を可能にしました。
太郎:では「今までと違って何がすごいのか」を順に教えて。
花子:
- 2015 年の仕事は「拡散 = 逐次ノイズ除去」という発想自体が革新的でした。
- DDPM は簡潔な二乗誤差損失と U-Net 共有重みで学習を安定化し、従来の GAN やオートレグレッシブモデル並みの画像品質を達成した点が画期的です。
- LDM は「高次元ピクセルで 1000 ステップ」問題を潜在圧縮 (f=4〜8) で緩和し、GPU 日数とメモリを 1 桁削減しながら、FID で GAN 系に匹敵する性能を出したことが凄いです。
- Diffusion-LM は連続潜在を勾配で操作できるため、既存 Plug-and-Play 法では困難だった複合制御(例えば「肯定的かつ毒性ゼロで、特定の構文」)を一つの枠組みで実現しました。
太郎:過去の課題は何で、各研究はどう解決しましたか?
花子:
- 以前は「柔軟だが正規化定数が計算不能」か「正規化できるが表現力不足」というジレンマがありました。拡散モデルは可逆マルコフ連鎖として学習することで両立させました(2015)。
- DDPM 以前のスコアマッチング系は訓練が不安定・サンプル品質が限定的でした。DDPM は線形 β スケジュールと ε 予測で安定訓練を実現し、品質を飛躍させました。
- 高解像度画像では拡散の計算コストがボトルネックでした。LDM は圧縮した潜在で拡散し、学習もサンプリングも数倍高速化しました。
- テキスト生成では「固定 LM を外部分類器で誘導する方法」が単純属性にしか効かない課題がありました。Diffusion-LM は階層的連続潜在に勾配を直接当てることで複雑制約を可能にしました。
太郎:世の中を驚かせた成果・数値を挙げてください。
花子:
- DDPM:CIFAR-10 で Inception 9.46 / FID 3.17 を達成し、当時の GAN 系を上回りました。
-
LDM:CelebA-HQ 256² で FID 5.11(200 ステップ)と、同サイズの GAN・拡散系の中で最良クラス。さらに ×4 超解像では FID 2.8 と SR3 を上回りました。
また MS-COCO テキスト生成では ガイド付きモデルが FID 12.63 / IS 30.3 と AR 系 4 B モデルに匹敵しました。 - Diffusion-LM:6 つの細粒度制御タスクで、従来 Plug-and-Play 法の成功率をほぼ 2 倍に高め、微調整オラクル並みの性能を示しました。
- Sohl-Dickstein ら:定量指標は少ないものの、LSUN-Church で FID 7.89、Bedroom で FID 4.90 を報告し、初期手法ながら説得力のある画質を示しました。
太郎:最後に「それでも残る限界」は?
花子:
- 2015 版と DDPM は1000 ステップ前後の逐次生成が遅い。
- LDM でも GAN よりはまだ遅く、さらに潜在復元誤差が極端な高精細タスクではボトルネックになると著者も認めています。
- Diffusion-LM は「学習済み言語埋め込み+拡散」の枠組みですが、論文時点では大規模事前学習 LM ほどの流暢さや長文保持については未検証です(本論文では扱っていません)。
- DDPM 系全般で**ログライク(負対数尤度)**は最先端 Flow や VAE に劣るケースがあると指摘されています。
太郎:7 分でここまで整理してくれて助かりました!
花子:拡散モデルはまだ進化中ですが、これらの論文が礎になっていることは間違いありません。
日本語が固い!
GPT 4.5で自然な対話に
言語能力に定評のある4.5で試す。
このトークスクリプトを、太郎が相槌を入れたり、花子がもっと話し言葉で話すように書き換えて。
回答:長いので折りたたみ
(トークスクリプト:初心者にもわかりやすい会話形式、約7分)太郎:今日は「拡散モデル(Diffusion Model)」について、話題の重要な論文をわかりやすく教えてもらおうと思います。花子さん、よろしくお願いします。
花子:よろしくね。今日は4つの代表的な論文を取り上げていくよ。
太郎:じゃあ、まず「これらの論文って何を論じてるの?」から聞こうかな。
花子:いいよ。最初の論文(2015年)では、拡散モデルの原型を作ったんだよね。ランダムなノイズをちょっとずつ元の画像に戻していくことで、画像が作れるっていう仕組みを初めて示したんだ。
太郎:なるほど、そこが出発点って感じなんだね。
花子:そうそう。その次に2020年のDDPMという論文が出て、深層学習のU-Netっていうネットワークを使ったことで、すごく品質が良い画像を作れるようになったんだよ。
太郎:おー、ここで一気に画像がきれいになったんだね。
花子:その通り!さらに2022年のLatent Diffusion Model(LDM)の論文では、元の画像じゃなくて、もっと情報を圧縮した潜在空間っていう場所で拡散させて、処理をめちゃくちゃ速くしたの。
太郎:なるほどねぇ。画像の処理が速くなるのは大事だもんね。
花子:最後に、Diffusion-LM(2022年)の論文なんだけど、これはテキスト生成に拡散モデルを使って、細かいニュアンスや構造を自由にコントロールできるようにしたんだ。
太郎:画像だけじゃなくて、テキストにも使えるんだ!面白いねぇ。
太郎:じゃあ、「今までと違って何がすごいのか」教えてくれる?
花子:うん。一番最初の2015年の論文はね、ノイズを逆に取っていくっていう発想がそもそも新しかったんだ。
太郎:アイデアが画期的だったんだね。
花子:そうそう。そしてDDPMがすごかったのは、シンプルなやり方で学習を安定させて、画像の品質を飛躍的に高めちゃったことなんだよね。
太郎:シンプルなのに品質アップって理想的だね。
花子:うん。それでLDMは、画像の情報をぎゅっと圧縮して計算量を減らしつつ、すごくきれいな画像を高速に作れるようにしたのが画期的だったの。
太郎:効率化ってすごく大事だもんね。
花子:そしてDiffusion-LMでは、今まで難しかった「複雑な条件を指定したテキスト生成」を簡単にできるようにしたんだよ。
太郎:なるほどね。テキストの表現力がグッと増したってことか。
太郎:次は、「今までの課題が何で、この研究で何が解決されたのか」だね。
花子:前はね、「柔軟だけど計算が難しい」か、「計算できるけど性能が低い」っていうジレンマがあったんだ。でも拡散モデルは、この両方をうまくクリアできちゃったの。
太郎:すごい、いいとこ取りだね。
花子:そう。そしてDDPM以前のモデルは、学習が安定しなくて画質がいまいちだった。でもDDPMはとても安定した方法を発見して、画像がとてもきれいになったんだよ。
太郎:これは大きな進歩だったんだね。
花子:LDMでは、高解像度の画像を作るときに計算が重くなっちゃう課題があったんだけど、潜在空間を使うことで、大幅に速く処理できるように解決したんだ。
太郎:やっぱりそこがポイントなんだねぇ。
花子:うん。そしてDiffusion-LMでは、テキスト生成の課題だった複雑な条件指定を、シンプルな方法で解決したんだよね。
太郎:なるほど、どんどん使いやすくなってるわけだ。
太郎:じゃあ、「世の中を驚かせた成果の代表例や数値」も簡単に教えて。
花子:いいよ。DDPMは画像生成の指標(FID)で当時トップだったGANっていう手法を超えるくらいのすごい品質を出したの。
太郎:へー、GANより良かったんだ!
花子:そうなの。LDMも高解像度画像でトップクラスの指標を出して、GANや他のモデルと肩を並べちゃった。
太郎:これは注目されるよね。
花子:うん、Diffusion-LMも、以前の方法と比べて複雑な条件指定の成功率を2倍近く上げて、性能を大きく伸ばしたんだよ。
太郎:テキスト生成も進化してるね。
太郎:最後に、「本手法でもまだ限界がある点」を教えて。
花子:やっぱりまだね、生成に何百とか何千回ってステップが必要で、時間がちょっとかかっちゃうの。
太郎:なるほど、処理時間はまだ課題か。
花子:そうそう。あと、LDMでもすごく細かな画像だと少し情報が失われちゃうことがあって、まだ完全とは言えないんだ。
太郎:完璧じゃないんだね。
花子:うん、Diffusion-LMに関しても、流暢さとか長文を上手に作ることについては、まだ未検証で課題が残っている感じ。
太郎:なるほど、これからに期待って感じだね。
太郎:花子さん、今日はすごく分かりやすかったよ!ありがとう。
花子:こちらこそありがとう!拡散モデルは今もどんどん進化してるから、今後が本当に楽しみだよね。
ちょっと7分よりは短いですが自然な日本語にはなりました。
GPT o3で音声ファイル化を試みる
このトークスクリプトを音声ファイルにして。
太郎は日本人男性で
花子は日本人女性で
もっとプロンプトの工夫が必要だったのかな。
回答
申し訳ありません。現在この環境には日本語 TTS(男女別ボイス)エンジンが入っておらず、高品質な
日本語音声ファイルを生成できません。
* **英語アクセントで日本語を読む合成音声**なら作成可能ですが、聞き取りづらい仕上がりになります。
* あるいは、テキスト(SSML 含む)をお渡ししますので、ユーザー側で CoeFont/VOICEVOX/
* Google Cloud TTS など日本語対応サービスに読み上げさせる方法もあります。
ご要望に合う方法を教えていただければ、その形でファイルやスクリプトを用意します。
もっとやりようがあると思いますが今回は安直にGoogle Cloud TTSである、Google AI StudioのGenerate Media - Generate speechを使います
Google AI StudioのGenerate speech
実はOpenAIの自然な音声生成エンジンOpenAI.fmも試したのですが、
- 対話形式にできず、話者が1名のみ
- 長い文に対応してないようで途中で切れてしまう
これはこれで、絵本を朗読者が読み上げるみたいで味はあったのですが。失敗作ですが一応共有します。
- 音声.wavファイル 01:35
GPT o4-miniで下記用のトークスクリプトに
Generate speechがSpeaker 1, Speaker 2での対話形式(変えれば変えれそうですが今回はこれに合わせました)
単に「太郎:」を「Speaker 1:」、「花子:」を「Speaker 2:」に変更
完成したトークスクリプト
回答:長いので折りたたみ
Speaker 1: 今日は「拡散モデル(Diffusion Model)」について、話題の重要な論文をわかりやすく教えてもらおうと思います。Speaker 2さん、よろしくお願いします。Speaker 2: よろしくね。今日は4つの代表的な論文を取り上げていくよ。
Speaker 1: じゃあ、まず「これらの論文って何を論じてるの?」から聞こうかな。
Speaker 2: いいよ。最初の論文(2015年)では、拡散モデルの原型を作ったんだよね。ランダムなノイズをちょっとずつ元の画像に戻していくことで、画像が作れるっていう仕組みを初めて示したんだ。
Speaker 1: なるほど、そこが出発点って感じなんだね。
Speaker 2: そうそう。その次に2020年のDDPMという論文が出て、深層学習のU-Netっていうネットワークを使ったことで、すごく品質が良い画像を作れるようになったんだよ。
Speaker 1: おー、ここで一気に画像がきれいになったんだね。
Speaker 2: その通り!さらに2022年のLatent Diffusion Model(LDM)の論文では、元の画像じゃなくて、もっと情報を圧縮した潜在空間っていう場所で拡散させて、処理をめちゃくちゃ速くしたの。
Speaker 1: なるほどねぇ。画像の処理が速くなるのは大事だもんね。
Speaker 2: 最後に、Diffusion-LM(2022年)の論文なんだけど、これはテキスト生成に拡散モデルを使って、細かいニュアンスや構造を自由にコントロールできるようにしたんだ。
Speaker 1: 画像だけじゃなくて、テキストにも使えるんだ!面白いねぇ。
Speaker 1: じゃあ、「今までと違って何がすごいのか」教えてくれる?
Speaker 2: うん。一番最初の2015年の論文はね、ノイズを逆に取っていくっていう発想がそもそも新しかったんだ。
Speaker 1: アイデアが画期的だったんだね。
Speaker 2: そうそう。そしてDDPMがすごかったのは、シンプルなやり方で学習を安定させて、画像の品質を飛躍的に高めちゃったことなんだよね。
Speaker 1: シンプルなのに品質アップって理想的だね。
Speaker 2: うん。それでLDMは、画像の情報をぎゅっと圧縮して計算量を減らしつつ、すごくきれいな画像を高速に作れるようにしたのが画期的だったの。
Speaker 1: 効率化ってすごく大事だもんね。
Speaker 2: そしてDiffusion-LMでは、今まで難しかった「複雑な条件を指定したテキスト生成」を簡単にできるようにしたんだよ。
Speaker 1: なるほどね。テキストの表現力がグッと増したってことか。
Speaker 1: 次は、「今までの課題が何で、この研究で何が解決されたのか」だね。
Speaker 2: 前はね、「柔軟だけど計算が難しい」か、「計算できるけど性能が低い」っていうジレンマがあったんだ。でも拡散モデルは、この両方をうまくクリアできちゃったの。
Speaker 1: すごい、いいとこ取りだね。
Speaker 2: そう。そしてDDPM以前のモデルは、学習が安定しなくて画質がいまいちだった。でもDDPMはとても安定した方法を発見して、画像がとてもきれいになったんだよ。
Speaker 1: これは大きな進歩だったんだね。
Speaker 2: LDMでは、高解像度の画像を作るときに計算が重くなっちゃう課題があったんだけど、潜在空間を使うことで、大幅に速く処理できるように解決したんだ。
Speaker 1: やっぱりそこがポイントなんだねぇ。
Speaker 2: うん。そしてDiffusion-LMでは、テキスト生成の課題だった複雑な条件指定を、シンプルな方法で解決したんだよね。
Speaker 1: なるほど、どんどん使いやすくなってるわけだ。
Speaker 1: じゃあ、「世の中を驚かせた成果の代表例や数値」も簡単に教えて。
Speaker 2: いいよ。DDPMは画像生成の指標(FID)で当時トップだったGANっていう手法を超えるくらいのすごい品質を出したの。
Speaker 1: へー、GANより良かったんだ!
Speaker 2: そうなの。LDMも高解像度画像でトップクラスの指標を出して、GANや他のモデルと肩を並べちゃった。
Speaker 1: これは注目されるよね。
Speaker 2: うん、Diffusion-LMも、以前の方法と比べて複雑な条件指定の成功率を2倍近く上げて、性能を大きく伸ばしたんだよ。
Speaker 1: テキスト生成も進化してるね。
Speaker 1: 最後に、「本手法でもまだ限界がある点」を教えて。
Speaker 2: やっぱりまだね、生成に何百とか何千回ってステップが必要で、時間がちょっとかかっちゃうの。
Speaker 1: なるほど、処理時間はまだ課題か。
Speaker 2: そうそう。あと、LDMでもすごく細かな画像だと少し情報が失われちゃうことがあって、まだ完全とは言えないんだ。
Speaker 1: 完璧じゃないんだね。
Speaker 2: うん、Diffusion-LMに関しても、流暢さとか長文を上手に作ることについては、まだ未検証で課題が残っている感じ。
Speaker 1: なるほど、これからに期待って感じだね。
Speaker 1: Speaker 2さん、今日はすごく分かりやすかったよ!ありがとう。
Speaker 2: こちらこそありがとう!拡散モデルは今もどんどん進化してるから、今後が本当に楽しみだよね。
Google AI StudioのGenerate speech
Google AI StudioはGeminiの最新モデルやその他マルチモーダルな実験的機能を無料で使えます。
もちろんプライベート資料などは使わないように気をつけてくださいね。
-
(Google アカウントはもうありますよね)Google AI Studioにログイン
-
左のメニュー - Generate Media - Gemini speech generation(Generate speech)
-
Raw structure欄に作成したトークスクリプトを貼り付けます
- 冒頭の"Read aloud in a warm, welcoming tone"は音声の特徴と多いますが、今回はそのまま残しました
- "---"などの区切り線は無視するようで今回はそのまま
- Script builderのところに"Speaker 1", "Speaker 2"と対話形式で認識されました
-
モデル選択
- モデルも2種類選べるようですが今回はそのまま
-
音声を選ぶ
- 音声が30種類、用意されています。デフォルトだと、Zephyrが女性的で、Puckが男性的。太郎と花子が逆だったので、Speaker 1をPuckに、Speaker 2をZephyrに指定
-
数分で完成
結果
- Googleの力を使ってしまったができるにはできた
- 7分指定だったが4分と短い
- まぁこれは最初のトークスクリプト作成時に要調整
- 「あなたはわかりやすいと評判のNHK科学番組のシナリオライターです。この論文の内容を、7分の対話形式でまとめるためのプロンプトを提案して」とかやればいいかな