Stylez Advent Calendar 2025

株式会社スタイルズ

英語リスニング問題の台本を音声データにする

Last updated at 2025-12-10Posted at 2025-12-10

はじめに

高校受験を控えた子供が、志望校の過去問に取り組み始めました。昨今、英語のリスニング問題の点数比率は3割程度あるそうで軽視できません。一方、過去問題集にはリスニングの台本は掲載されているものの、音声データはありませんでした。

そこで、この台本を読み上げた音声データを作成し、受験勉強に役立ててもらおうと考えました。

方針

基本手作業
可能な限り無課金

その気になったら子供本人も手順を見て取り組めるよう、画面から入力して手作業で進めてみました。課金は求めるアウトプットが出なかったら必要かな、程度の温度感で始めてみました。

やったこと

台本(本のページ)をテキストデータにする
テキストデータを読み上げた音声データを作成する

台本(本のページ)をテキストデータにする

OCRについて、今回は出力内容・フォーマットの調整などが必要かと思いChatGPTを使ってみました。

スマホで各ページの写真を撮る
ChatGPTにて、写真を添付してテキスト化してもらう
テキストと各ページの写真を見比べて内容の修正

写真を雑に撮ってしまったにもかかわらず、かなり正確に読めてるなと思いましたが、毎回数か所は誤りがありましたので確認は必要です。

こんな感じで、コピペミス？みたいな誤りがありました。見つけるのに集中力が要ります。

テキストデータを読み上げた音声データを作成する

Gemini の音声生成（テキスト読み上げ）を利用しました。

Google AI Studio に、Playground があり、画面からの入力で簡単に音声データを作成できます。データのダウンロードも可能です。

Single-Speaker Audio の方を使ってみました。

Style Instruction

プロンプトを使って、どのように読み上げるかの指示ができます。

リスニングテストの台本で有る旨を伝え、高校入試に適した読み上げスピードを指定します。また、今回の台本には、会話文も含まれています。この部分は2人の Speaker で読み上げてもらった方がよいので、指示をいれます。

Please read the following script for a listening test for a Japanese high school entrance exam. Insert longer pauses between sentences so that students can follow the content more easily.
When reading the English parts, please speak at a speed of 120 to 130 words per minute.
If the script contains a dialogue, please read each speaker’s lines in different voices so that students can clearly distinguish the speakers.

(もちろんこの指示もChatGPTに相談して英訳してもらっています)

Text

ここに、リスニングテストの台本をコピペします

Run

音声データの生成を実行します。
音声データの生成が終わると、自動的に再生が始まります。ダウンロードもできます。

生成された音声データ

こんなのが出来ます(一部です)。

注意点

生成した音声データの出来栄え

ぶっちゃけ安定していません。
Playgroundだから？まだPreviewだから？プロンプトがよくないから？
解明できてません。

同じプロンプト(Style Instruction/Text)を入れて実行しても、仕上がりが少しずつ違います…

Speakerを分けたり分けなかったり
読み上げの速度が少し早かったり遅かったり
日本語の読み間違いをしたり

何回か試すと、いい感じのものができました。

AI Studioの安定性

生成を実行しても、Textに指定した内容をすべて読み上げてくれない場合がありました。エラーなどは表示されませんが、明らかに短い音声データができたりします。

以下の方法で、少し安定して生成できた気がしました。

Textに指定する内容が多すぎると頻発するので、大問単位くらいに留める
一度生成したら、ブラウザのタブを閉じて新しく開きなおして Runする
生成中、ブラウザのタブはアクティブにしておく

著作物の利用について

著作物をLLMのインプットにして音声データを作成することは、私的利用の範囲において権利制限規定の適用に該当し、著作権侵害には該当しないと解釈しました。

参考:
AIと著作権について | 文化庁

文化庁　令和5年度著作権セミナー A I と著作権
p42-p49

まとめ

それっぽいものはできました。読み上げの自然さには驚かされました。問題の雰囲気を掴んで形式に慣れる程度であれば、役立てられるのではと思います。

生成される内容を安定させたり、精度を上げていくには、台本のフォーマットや、指示の入れ方を少しずつ変えて追究していく必要がありそうです。

これ余談なんですけど…

子供は2019年にも登場しておりました。いまだに、英単語や知らない言葉などを尋ねています。月日の流れる早さを噛みしめています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up