2025年5月に発表したGemini APIのSpeech Generation機能を使って妹キャラの声を合成してみました。本記事では音声合成に使用したGemini Speech Generationの紹介とどのような手順で合成したかをまとめてみました。
Gemini Speech Generationとは
まずは音声合成に使用したGemini Speech Generationの紹介から。
概要
Google が2025年5月に発表したGemini APIのSpeech Generation機能は、従来のテキスト読み上げ技術の概念を根本的に変革する革新的な音声合成システムで、単純なテキスト読み上げを超え、複数話者による自然な会話、感情豊かな表現、そして細かなスタイル制御が実現できます。
利用可能なモデルと仕様
現在提供されているGemini TTSモデルは以下の2つです
- gemini-2.5-flash-preview-tts: 高速で効率的な音声合成に適したコスト重視モデル
- gemini-2.5-pro-preview-tts: より高度な表現力と制御性を提供する高性能モデル
音声オプションと技術仕様
システムでは30種類の音声オプションが用意されており、男性・女性の声に加え、年齢層や話し方の特徴も選択できます。TTSセッションのコンテキストウィンドウは32,000トークンに制限されており、出力音声は24kHzサンプルレート、16ビット深度のPCMフォーマットで生成されます。
Gemini Speech Generationの使いかた
-
Google AI Studioにアクセスします
-
複数人の会話を作りたい場合はそのままでもいいのですが、今回は一人がセリフを話しているシーンを作成したいので、 Single-speeker audit に切り替えます

-
Model Settingから任意の音声を選択します
※今回はLedaを選択しています
※音声サンプルはすべて英語ですが、選択したモデルでも日本語は使えました

Gemini Speech Generationで出力されたもの
妹キャラということで、雑な内容ですが下記のように指示してみました。
下記はサンプルの指示内容です
Style instructions
声質は高くて、全体的に可愛く甘える感じで息遣いの感じる話し方
Start witting or paste text here to generate speech
ねぇねぇ、お兄ちゃん、お兄ちゃんってばぁ~、もっと私のこと見てよっ
サンプル音声+テキトーな画像
サンプル画像はGeminiで作成して、ここで作成した音声と合成したものがこちらです。出力がWav形式だったので、いったん動画編集ソフトに画像付きでくわせたものをXに投稿したサンプルです。なお、動画加工はMicrosoft Clipchampを使用しています。
まとめ
お試しだったのでかなり雑に作ってみましたが、それでもそれなりの表現力があって今までの音声合成ソフトとは違うなという印象でした。特に抑揚をつけるなどの処理もしていませんので、このレベルのものが簡単に出力できると色々とはかどる人も多いのではないでしょうか。
余談な話ですが、Model Settingでは高めの声でしゃべる女性の音を意図的に選択しています。これはキャラクターのイメージから高めで甘ったるいしゃべり方をしてほしかったということを実現するための選択で、カスタム指示でもイメージの声をより強調するような指示の仕方をしています。なので、声質の選択と指示の仕方次第で、ある程度以上の表現力を実現できるのではないかと考えています。
この記事がどなたかのお役に立てれば幸いです。




