Sapeet 10th Anniversary Advent Calendar 2025

2025年12月10日発表🎉 Googleの最新音声合成モデルがすごい！「読む」から「演じる」へ。【Gemini 2.5 TTS】

Last updated at 2025-12-17Posted at 2025-12-17

2025年12月10日、Googleは音声合成モデル（Text-to-Speech, TTS）のメジャーアップデートとなる 「Gemini 2.5 Flash TTS」 および 「Gemini 2.5 Pro TTS」 のプレビュー版を発表しました。¹

ここ数年のTTSは 「どれだけ人間っぽく読めるか」 の競争でしたが、
今回のGemini 2.5 TTSは、方向性がちょっと違います。
“音読” ではなく、“演技の指示書” で声を作る——この発想の転換が面白いです。

本記事では、このアップデートの技術的特徴と、開発者が知っておくべき制御機能について解説します！

まずは説明よりも先に、今回のGemini 2.5 TTSがどれほどの実力か、実際に確認してみてください。
従来のTTSとは思えないほど、話し方そのものが圧倒的に変化しているのが分かるはずです。

使用したスタイルプロンプト

クリックで開く

AUDIO PROFILE：雷門ハヤト
「ミッドナイト・バグらせ配信」
　
THE SCENE：新宿・謎に広い配信スタジオ
　時刻は深夜1時37分。
　外は静まり返った新宿。終電はとっくに消え、街はクールダウン中。
　――だが、このスタジオだけは例外だ。
　
　天井からぶら下がる無数のLED。
　壁一面に並ぶモニター、コメント欄は毎秒更新。
　「LIVE」の文字が光った瞬間、空気が一段階ギアを上げる。
　
　ハヤトは座らない。
　座ったら負けだと思っている。
　音楽に合わせて体が先に動き、思考は後追い。
　テンションは常にピークの一歩手前、わざと不安定。
　
　ここは配信スタジオじゃない。
　視聴者の脳を起こすための実験場だ。
　
DIRECTOR’S NOTES
Style：
　「声に表情を全部乗せる」：笑い、驚き、ニヤつき、全部“音”で分かること。
　テンションは高いが雑にはしない。言葉はクリア、熱量は過剰。
　盛り上がりワードは母音長め。「きたぁぁぁ」「無理ぃぃ」「最高ぉぉ」
　
Pacing：
　考える前に喋る。でも噛まない。
　間はゼロ。沈黙は敵。
　
Accent / Pronunciation:
　東京アクセント
　外来語は勢い重視、日本語化してもOK
　固有名詞は噛まずに一発で通す
　
Paralinguistic:
　笑い混じりの息
　急に小声で畳みかける。
　
SAMPLE CONTEXT
　ハヤトは、
　深夜テンション・カオス実況・即興リアクションが求められる
　配信・イベント・ライブ進行の切り札。
　
　真面目な説明をさせると、
　なぜか一周回って一番分かりやすくなるタイプ。

どうでしたか？Gemini 2.5 TTS は単に声色を変えるのではなく、
文脈・演出意図・話し方の流れそのものを理解した上で音声を生成します。

では、何が変わったのか。
ここから、その技術的な進化点を順番に見ていきましょう。

3つの大きな改善点

（Google DeepMind のプロダクトマネージャーによる公式技術解説でも詳しく説明されています。²）

1. 「指示通りに演じる」表現の制御

Gemini 2.5 TTSの一番の違いは、「感情パラメータ」ではなく “演出意図” を文章で伝える設計になっている点です。
ユーザーは 音声ディレクター（監督） のように、誰が・どこで・どんな雰囲気で・どう話すか をまとめて指示できます。LLMとしての高い理解力があるため、声色そのものだけでなく、呼吸感・間・アクセント・テンポ などの“パラ言語”も含めて、統合的に再現しやすくなっています。

パラ言語（Paralinguistic features）とは？

パラ言語とは、発話内容そのもの（言語情報）以外で、話し方に含まれる非言語的な要素を指します。
たとえば次のような要素です。

息遣い
間（ポーズ）
抑揚・強調
話速の揺らぎ

Gemini 2.5 TTS は、これらのパラ言語的特徴を
「息多めで」「間を長く取って」「緊張感のある沈黙を挟む」
といった自然言語の指示として理解し、文脈に応じて自律的に音声表現へ反映します。

重要：プロンプトは「5要素」で組む

良い演技を引き出すには、以下のようにプロンプトを構造化して記述することが有効です。

Audio Profile：キャラクターの核（名前・役割・年齢）
Scene：場所＋空気感
Director’s Notes：演技指示（発音／息遣い／アクセントなど）
Sample Context：モデルに話し始めのコンテキストを与える補助説明
Transcript：実際に読ませる本文

これ、実は脚本の基本形に近いです。
キャラ（誰）＋状況（どこ）＋演出（どう話す）＋文脈（なぜ今それを言う）＋台詞（何を言う）。
だからLLM系TTSと相性が良い

そのまま使えるプロンプト雛形

雛形を用意したので、ぜひ使ってみてください

# AUDIO PROFILE: （名前）
## （肩書き／アーキタイプ）

## THE SCENE: （場所・状況）
（物理環境、照明、距離感、周囲の音、空気感、時間帯など）

### DIRECTOR'S NOTES
Style:
- （トーン、狙い、聴き手に与えたい印象）
Pacing:
- （全体の速さ、途中の変化、間の置き方）
Accent / Pronunciation:
- （地域アクセント、固有名詞の読み、外来語の扱い）
Paralinguistic (optional):
- （息遣い、ささやき、笑いを含む、など）

### SAMPLE CONTEXT
（この声が得意な用途／番組のテンション／想定リスナー 等）

#### TRANSCRIPT
（ここに読ませる本文）

この設計にすると、単に「明るく読んで」よりも、“役に入りきった一貫性” が出しやすくなり、結果として声の説得力（演技力） が上がります。

※ちなみに、冒頭の動画のプロンプトは上記フォーマットを使って作成しています。

2. 文脈を理解する「間」と「ペース」

今回のアップデートで、最も技術的に興味深いのが 「文脈認識型のペース制御」 です。
モデルはテキストの内容を理解し、自律的に話す速度を調整してくれます。

プロンプト例：
「あなたはミステリー小説の語り手です。緊張した口調から始め、興奮と安堵へ向けて加速してください」

この指示に対し、以前のモデル（2025年5月版）では単調になりがちだったのに対し、今回のモデルでは前半を緊張感たっぷりにゆっくりと、クライマックスにかけて畳み掛けるように話すといった動的な抑揚を実現してくれます。

私が実際に他の例で試してみると、映画予告ナレーターのように、落ち着いた声色で間を効かせながら、非常に説得力のある話し方をしてくれました↓

3. マルチスピーカー対応

新しいGemini 2.5 TTSでは、ポッドキャストや対話型コンテンツを想定した
「Multi-speaker（複数話者）」機能も改善されています。

今回のアップデートでは、複数の話者が登場する会話において
キャラクターごとの声質やトーンを安定して維持しながら、
発話の切り替わり（handoff）をより自然に処理できるようになりました。

この改善で、ポッドキャスト、模擬インタビュー、
複数キャラクターが登場するナレーションなど、
「掛け合いとして成立する音声」が求められる用途で特に効果を発揮するでしょう。

▼ マルチスピーカーの例

---

実装ガイド：Pythonでの実装例

Gemini 2.5 TTSは Gemini API を通じて利用可能です。ここでは google-genai ライブラリを使用した基本的な実装例を紹介します。

セットアップ

モデルは用途に合わせて以下の2つから選択します。

gemini-2.5-flash-preview-tts: 低レイテンシ。対話アプリ向け。
gemini-2.5-pro-preview-tts: 高品質。オーディオブックや動画制作向け。

シングルスピーカーでの演技指示

自然言語のプロンプト（prompt）でスタイルを指定するのがポイントです。

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

# 演技指導を含むプロンプト
text_prompt = "Say cheerfully: Have a wonderful day!" 
# または "不気味なささやき声で: 何か悪いことが起きそうだ..." など

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents="Say cheerfully: Have a wonderful day!",
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(
               voice_name='Kore',
            )
         )
      ),
   )
)

# 音声データの保存処理（バイナリ書き出し）
# ...

マルチスピーカー（対話）の実装

複数のキャラクター（Speaker）を定義し、それぞれの声を割り当てます。

prompt = """
TTS the following conversation between Joe and Jane:
Joe: 今日の調子はどうだい、ジェーン？
Jane: 悪くないわ。あなたは？
"""

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
                speaker_voice_configs=[
                    types.SpeakerVoiceConfig(
                        speaker='Joe',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name='Kore')
                        )
                    ),
                    types.SpeakerVoiceConfig(
                        speaker='Jane',
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(voice_name='Puck')
                        )
                    ),
                ]
            )
        )
    )
)

注意点

プレビュー版におけるレイテンシの現状

Gemini 2.5 TTS は音声品質や演技表現の面では非常に高い評価を受けていますが、
プレビュー版の現時点ではレイテンシ（生成時間）に課題があるという声も上がっています。³

実際に海外の開発者コミュニティでは、

約250文字の短いテキストでも、音声生成に約9秒かかった
品質は素晴らしいが、この遅延ではリアルタイム用途には厳しい

といった実測報告が共有されています。³

この挙動は、gemini-2.5-flash-preview-tts のような低レイテンシ向けモデルでも発生しています。
プレビュー版のため、推論パイプラインの最適化がまだ完了していないのかもしれません。
今後に期待したいと思います。

まとめ

Gemini 2.5 TTSは、単なるテキスト読み上げツールから、「文脈を理解し、演出意図を汲み取って演じるAI声優」 へと進化しました。

特に、ゲームのNPC、教育用コンテンツ、ナレーション生成といった分野で、これまで人間の手動調整が必要だった「間」や「感情」の部分をAIが自律的に処理してくれる可能性を秘めています。

まずはTTSアプリもしくはAI Studioで、その「演技力」を体験してみてください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up