Gemini 3.1 Flash TTSを徹底検証｜音声タグ・30の声・マルチスピーカーを聴き比べてみた

Posted at 2026-06-22

はじめに

こんにちは！
KDDIアイレットの取り組みとして、本日6月22日から7月3日にかけて「Google Cloud Next '26 / Google I/O やってみた系ブログリレー」がスタートしました！

記念すべき第1日目の今回は、「Gemini 3.1 Flash TTS」を対象に、実際に試してみた内容をご紹介します。

本日は、Google が2026年4月15日に「プレビュー版」として公開したGemini 3.1 Flash TTS を、実際に検証してみました。

何がすごいのか、ひとことで言えば「声に演技をさせられる」ことです。

・「ここはささやくように」「ゆっくり」「うれしそうに」といったような指示を文章に書き込むだけで、読み上げ方が変わる
・声のキャラクターを30種類から選べる
・2人の会話も、一度の操作でそれぞれ違う声で作れる

日本語にもしっかり対応しています。全体では70以上の言語に対応しています。

本機能は、2026年4月15日に公開された「プレビュー版」です。
プレビュー版のため、仕様・対応内容・料金などは今後変わる可能性があります。
本格的に利用する際は、必ず最新の公式情報をご確認ください。

1. 「演技指示」ができる — 音声タグ

このモデルの一番の特徴が「音声タグ」です。

やり方はとても簡単。
読み上げてほしい文章の中に、カギカッコ付きの指示を混ぜるだけです。
たとえば、こう書きます。

[cheerful] 今日はいい天気ですね。[whispers] ここだけの話なんですが…

すると [cheerful]（明るく）や [whispers]（ささやき声で）の部分は読み上げられず、「話し方の指示」として効きます。
演劇の台本に書く「（小声で）」「（ゆっくり）」といったト書きをイメージするとわかりやすいです。

ポイントは、読み上げる文章は日本語でも、指示タグは英語で書くことです。

この指示は200種類以上あり、ざっくり次の4カテゴリに分けられます（タグは英語で、半角の角括弧で囲みます）。

カテゴリ	タグの例
感情（明るい）	`[enthusiasm]` `[excitement]` `[cheerful]` `[hope]`
感情（暗い・緊張）	`[anger]` `[nervousness]` `[frustration]` `[confusion]`
声の出し方	`[whispers]` `[calm]`
テンポ・間（ま）	`[slow]` `[fast]` `[short pause]` `[long pause]`

2. 声を30種類から選べる

声には「明るい人」「落ち着いた人」「若々しい人」など、それぞれにキャラクターがあります。
全部で30種類から選べて、名前はすべて星や衛星の名前です。

代表的なものだけ挙げると、こんな感じです（特徴は公式の説明にもとづくものです）。

名前	性別	雰囲気
Kore	女性	芯のある、しっかりした声
Charon	男性	説明向きの落ち着いた声
Leda	女性	若々しい声
Puck	男性	明るく軽快な声
Zephyr	女性	明るい声
Gacrux	女性	成熟した落ち着いた声
Sulafat	女性	温かみのある声
Sadaltager	男性	知的で落ち着いた声

ナレーションなら落ち着いた Charon、明るい案内なら Puck や Zephyr、といった選び方ができます。

声の雰囲気は、公式の説明をもとにした目安です。
実際の印象は人によって受け取り方が違うので、気になる声は自分で聴いて選ぶのがおすすめです（残りの22種類も同じように選べます）。

3. 2人の会話も一度に作れる

ナレーションだけでなく、2人の対話も作れます。
しかも、それぞれの人に違う声を割り当てて、一度の操作で1つの音声にまとめてくれます。

たとえば「青井さん（若々しい声）」と「陸さん（落ち着いた声）」の掛け合いを作るとき、別々に作って後でつなぎ合わせる、といった手間が要りません。

・学習教材の会話例
・ポッドキャスト風のコンテンツ

こうしたものを作るのに便利です。

アクセス方法

このAIは、用途に合わせていくつかの入り口から使えます。以下、目的別に選択してください。

入り口	こんな人に
Google AI Studio	とにかくまず触って音を聴いてみたい
Gemini API	自分のアプリやツールに組み込みたい
Vertex AI	権限管理やデータの扱いをきちんとした本番運用
Google Vids	Workspaceユーザー向け（動画作成アプリ。コード不要）

「まず体験したいだけ」なら、ブラウザで使える Google AI Studio が一番手軽です。
コードを書く必要はありません。

今回は「会社の仕事での利用」を想定して、Google Cloud の Vertex AI という入り口から試しました。
以下はその記録です。

Python の google-genai というライブラリを使います。
便利なのは、入り口（Gemini API か Vertex AI か）を変えても、コードの大部分は同じな点です。クライアントを作る1行だけが違います。

from google import genai

# (A) 個人向け：AI Studio で取得した鍵(APIキー)を使う
client = genai.Client(api_key="YOUR_API_KEY")

# (B) 会社向け：Google Cloud のプロジェクトを使う（今回はこちら）
client = genai.Client(vertexai=True, project="PROJECT_ID", location="global")

このあとの「文章を渡して音声をもらう」部分は共通です。

実際に試してみた

今回は、次の4つを実際に音声にしてみました。

ふつうの日本語の読み上げ
音声タグ（演技指示）あり / なしの聴き比べ
いろいろな声の聴き比べ
2人の会話

from google import genai
from google.genai import types
import wave

client = genai.Client(vertexai=True, project="PROJECT_ID", location="global")

response = client.models.generate_content(
    model="gemini-3.1-flash-tts-preview",
    contents="こんにちは。AI音声合成のテストです。",
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],  # 音声で返してもらう指定
        speech_config=types.SpeechConfig(
            voice_config=types.VoiceConfig(
                prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name="Kore")
            )
        ),
    ),
)

# 返ってくるのは「むき出しの音声データ」なので、WAV 形式に整えて保存する
data = response.candidates[0].content.parts[0].inline_data.data
with wave.open("output.wav", "wb") as wf:
    wf.setnchannels(1); wf.setsampwidth(2); wf.setframerate(24000)
    wf.writeframes(data)

どれも問題なく音声が作れました。
数秒〜十数秒の音声が、待たされる感覚もなく、すぐに出てきます。

ここからは、実際にどんな文章・タグを入力したのかと、聴いてみての感想を紹介します。
（感想はあくまで個人の印象です。感じ方は人それぞれなので、気になる方はぜひご自身でも試してみてください）

検証1：ふつうの日本語の読み上げ（タグなし）

使った声: Kore
使ったタグ: なし

こんにちは。これは Gemini 3.1 Flash TTS による日本語の音声合成の検証です。自然な抑揚で読み上げられているか確認します。

感想：TOEICなどで英語のリスニングテストが始まる前のガイダンスに似ています。少し冷たい印象で淡々と説明している感じです。

検証2：音声タグで「演技」が変わるか

使った声: Kore
使ったタグ: [cheerful] [whispers] [long pause] / [slow] [short pause]

タグなし：

明日の天気は晴れです。気温は25度まで上がるでしょう。

タグあり（[cheerful] 明るく・[whispers] ささやき・[long pause] 長い間）：

[cheerful] 明日の天気は晴れです。気温は25度まで上がるでしょう。[whispers] ただし、夜は冷え込みます。[long pause] 上着をお忘れなく。

ゆっくり指定（[slow] ゆっくり・[short pause] 短い間）：

[slow] ゆっくりと、はっきり、読み上げます。[short pause] 大切なお知らせです。

感想：タグによってだいぶ大袈裟であったりそうじゃなかったりします。[cheerful]や[pause]は使い勝手が良い印象です。[whispers]や[slow]はかなり大袈裟めでした。個人的にはあまり使わないかもしれません。

検証3：いろいろな声の聴き比べ

同じセリフを、4種類の声で読み上げました。

本日はお集まりいただき、誠にありがとうございます。

・Kore（芯のある声）
・Charon（説明向きの落ち着いた声）
・Leda（若々しい声）
・Puck（明るく軽快な声）

感想：こちらは4つとも特徴掴んでいてよかったです。好みや場面によってうまいこと使い分けると良いです。

検証4：2人の会話

「青井さん（声：Leda）」と「陸さん（声：Charon）」の掛け合いを、一度の操作で1つの音声にまとめました。セリフの中に [enthusiasm]（熱意）や [calm]（落ち着いて）のタグも混ぜています。

青井：ねえ、Gemini の新しい音声合成、もう試した？
陸：うん。タグで感情まで指定できるのが面白いよね。
青井：[enthusiasm] そうそう！一回の生成で二人分の声が出るのが便利！
陸：[calm] しかも日本語の品質がかなり上がってる。

感想：しっかりと会話形式で指示通りの音声の抑揚で話してくれました。またもやTOEICの例えですが、リスニングテストの会話形式で男女が話してる場面に似ています。

使うときの注意点

知っておくと安心なポイントを、3つにまとめました。

① まだ「プレビュー版（お試し公開）」です

正式版ではないため、仕事などで本格的に使う前に、Google の最新の公式情報を一度確認しておくと安心です。

② どの入り口から使うかで、条件が変わります

同じ機能でも、「ブラウザ（AI Studio）」「Vertex AI」など使う入り口によって、次の点が違います。
・料金
・使える条件
・入力したデータの扱い方

特に会社の業務で使う場合は、「入力した文章がどう扱われるか」を事前に確認しておきましょう。

③ 作られた音声には「AI製の印」が入ります

できあがった音声には、SynthID という電子的な印が埋め込まれます。
これは目では見えず、耳でも聞こえないものです。

「この音声はAIが作ったものです」とあとから判別できるようにするための仕組みで、悪用防止に役立ちます。

まとめ

・Gemini 3.1 Flash TTS は、文章に「演技指示」を書き込むだけで、感情や話すテンポをコントロールできるAI音声合成
・声は30種類から選べて、2人の会話も一度に作れる
・まず試すならブラウザの Google AI Studio、仕事で使うなら Vertex AI が向いている
・まだプレビュー版なので、本格利用の前には最新情報のチェックをする

この機能が発表されたことで、ナレーション、教材、問い合わせ対応の音声化など、活用の幅が広がりそうです。

気になった方は、まずブラウザで一度、試してみてください。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up