はじめに
Google が提供するクラウドサービス 「NotebookLM(ノートブック・エルエム)」 は、PDFや音声・動画などをアップロードして要約や分析、質問回答ができる便利なサービスです。
今回、30秒ほどの録音データを使って NotebookLM の文字起こし精度と処理速度を検証してみました。
結論:5秒で文字起こし完了、精度も実用レベル。
短尺・単一話者の条件では非常に優秀な結果でした。
将来的には、会議の議事録作成や打合せメモ整理といった業務への活用も視野に入れており、その第一歩として短尺音声での検証を行っています。
今回やったこと(まとめ)
1. 30秒の音声データをスマホで録音
2. 音声データを NotebookLM にアップロード
3. 「全文を文字起こししてください」と依頼
4. 文字起こしの精度検証
アップロードから10秒ほどでレスポンスが返り、文字起こし自体は 約5秒 で終了しました。
それでは、詳細を以下に記載していきます。
1. 音声データの準備
まず、検証用に下記文章の音声データを用意しました。
無人島に1つだけ持っていけるなら、私は“ライター”を選びます。
火が確保できると、暖を取る・料理をする・水を煮沸する・夜に動物を遠ざけるなど、生活の基盤が一気に整います。
原始的な方法で火を起こすのは想像以上に難しく、天候にも左右されます。
その不確実性を排除できるという点で、ライターは最も生存率を上げてくれる道具だと思います。
※音声データは、筆者がiPhoneのボイスメモで録音(M4Aファイル)。
※上記文章は、ChatGPTで作成。
2. 音声データを NotebookLM にアップロード
NotebookLM のトップ画面から「新規作成」を押すと、ファイルアップロード画面が表示されます。
ここに音声データをアップロードします。

アップロードすると自動で要約が始まり、10秒ほどで下記の画面が表示されました。
(タイトルも自動生成ですが、なかなか良い仕上がりです)

3. 文字起こしを依頼
続いて、チャット欄で文字起こしを依頼します。
すると約5秒で、以下の結果が返ってきました。

4. 文字起こしの精度検証
今回の30秒音声では、ほぼ正確に文字起こしされていました。
異なっている箇所は、主に3つです。
| 正解テキスト | 文字起こしテキスト | 誤りの内容 | |
|---|---|---|---|
| ① | 私は“ライター”を選びます。 | 私はライターを選びます。 | 鉤括弧の脱落 |
| ② | 水を煮沸する | 水をする | 重要な単語(煮沸)の脱落 |
| ③ | 暖を取る・料理をする・水を... | 暖を取る、料理をする、水を... | 句読点の誤変換 (中黒→読点) |
気になった点は以下の②のみです。
②「水を煮沸する」→「水をする」に変換されてしまった
(短尺とはいえ、固有の動詞の脱落は実務上の影響が大きいため、ここは評価ポイントになります。)
①と③は、仮に人が文字起こししても表記ゆれが発生しやすく、文意への影響は小さいと感じました。
短尺・単一話者・明瞭な音声であれば、NotebookLM の文字起こしは実務利用にも耐えうる精度です。
適用範囲を広げるための今後の検証
今回の検証は「30秒・単一話者・一般的な内容」という比較的シンプルな条件でしたが、
NotebookLM の文字起こしが実務利用に向けた有望な選択肢になり得ることが確認できました。
将来的に会議の議事録作成などに活用することも見据えており、 より幅広い実務シーンで対応できるかを確認するため、以下の追加検証も予定しています。
🔍 今後試したいケース
- より長尺(30分以上)の会議音声
- 登場人物が2人以上の対談や会議(話者分離の精度)
- 専門用語が頻出する業務会話
- 雑音が多い環境での録音(会議室・現場環境)
- 早口・かぶり発話・言い直しを含む音声
こうした条件でも高精度を維持できるようであれば、NotebookLM は 議事録作成や音声メモ整理など、日常業務の中でより活用できる場面が広がっていく と考えています。
まとめ
- 30秒の録音データを NotebookLM にアップして文字起こし
- 5秒で結果が返る高速処理
- 誤りはごくわずかで、短尺+単一話者なら 実用レベルの精度
- 今後は、長尺・複数話者・専門用語など、より実務に近い条件で追加検証予定
NotebookLM の文字起こしは手軽で精度も高く、初回の検証としては非常に好感触でした。
今後は、より実務に近い条件で精度を継続的に検証していく予定です。

