「Hello, how are you today?」と機械的に読み上げるTTSの声を、誰もが一度は聞いたことがある。「人ではない」とすぐ分かる理由は、TTSがその瞬間の文字列だけを見て音を作っているためだ。前のターンで相手が泣きそうな声だったか、苛立っていたかは、生成側に届かない。2026年5月5日にInworld AIが発表した「Realtime TTS-2」は、この前提を組み直した。テキストではなくマルチターンの生の音声履歴を入力に取るclosed-loop型の音声モデルだ。本記事では、その設計、海外4社での使われ方、応用シナリオを順に追う。
「次のテキストを話す」から「前の音を聴いて応える」へ
従来のTTSを関数で書くとシンプルだ。tts(text) -> audio。1つの文字列を、固定された声で1回読み上げる。会話の前後関係は呼び出し側のアプリが管理し、TTSモデル自身は「いま自分が誰と話しているか」を知らない。
Inworld TTS-2はここを根本から変えた。CSO(最高科学責任者)の Igor Poletaev は発表時に「ほとんどのTTSは会話から切り離された状態で音声を生成する。TTS-2はマルチターン交換の音声コンテキストを使うよう訓練されており、相手の話し方に応じて発声の仕方が変わる」と説明している。関数で書くと以下に近い形になる。
tts2(text, audio_history) -> audio
audio_history には文字起こしされたテキストではなく、波形に近い表現が入る。トーン、声の震え、間の取り方、笑い声──テキストに変換した瞬間に消える情報を、モデルが直接読む。ユーザーが「Okay, fine」と言ったときに、それが安堵なのか諦めなのか皮肉なのかをモデル側で見分け、トーンを揃えて返せる。
加えて、TTS-2は自然言語の「演技指示」も受け取る。プロンプトに [speak tired but warm, like she just got home] のようなタグを混ぜると、その通りに発声する。happy/sad/angry のような固定ラベルではなく、ディレクター(演出家)が役者に出すような細かい指示を文章で渡す形だ。
公開されている主な仕様(Inworld公式ブログ):
- 初音までのレイテンシ(time-to-first-audio):中央値で200ミリ秒未満
- 対応言語:100以上、会話の途中で言語を切り替えても声色は保持される
- 3つの安定性モード:Expressive(会話AI向け、表現重視)/ Balanced(既定)/ Stable(IVRなど業務向け、声の揺らぎを抑える)
- 第三者ベンチマーク Artificial Analysis Speech Arena で前世代の TTS 1.5 Max が1位、Google Gemini 3.1 Flash TTS と ElevenLabs v3 を上回っている
Inworld Realtime APIのアーキテクチャ:STT・Router・TTS-2 の3段重ね
TTS-2は単独で動くモデルではなく、Inworld Realtime API の一部だ。同APIは3段構成になっている。
-
Realtime STT(
inworld/inworld-stt-1)──入力音声を文字起こしすると同時に、年齢・訛り・ピッチ・声質・感情といったパラ言語信号を構造化された信号として同じ接続上で返す - Realtime Router──OpenAI、Anthropic、Google、Groq、Mistral、xAI など数百のLLMから、用途に応じて最適なモデルを選んで呼び出す
-
Realtime TTS-2──LLMの応答テキストに混ざる
[sigh][laugh][speak softly]などのインライン指示と、音声履歴を合わせて発声する
肝は、STTが拾ったパラ言語信号がLLMのコンテキストに流れ込み、その情報を踏まえてTTS-2が発声するという一気通貫の設計だ。Inworld公式によれば、単一WebSocketで end-to-end 約600ミリ秒(STT 200ms + LLM 400ms + TTS 180ms を並行処理)、合計1秒未満のレイテンシを公表している。価格は分あたり0.015ドルから。
LiveKit プラグインなら10行で触れる
開発者目線で価値が分かりやすいのは、LiveKit Agents への統合だ。LiveKit は WebRTC ベースの音声エージェント開発フレームワークで、Inworld 公式プラグインが pip/npm で提供されている。
from livekit.agents import AgentSession
from livekit.plugins import inworld
# model="inworld-tts-2" を指定するだけで closed-loop モデルに切り替わる
# voice はプリセットから選ぶ(独自クローン作成も可能)
session = AgentSession(
tts=inworld.TTS(
model="inworld-tts-2", # 前ターンの音声履歴を入力する新世代モデル
voice="Ashley", # 既定のプリセット声
temperature=1.1, # 高めにすると自然な揺らぎが出る
speaking_rate=1.0, # 0.5〜1.5 の範囲で速度調整
),
)
LLMの応答テキストに [speak softly] のような演技タグや、[sigh] のような非言語マーカーを混ぜると、TTS-2 はそれを解釈して反映する。プロンプト本文に演出指示が直接混ざる、新しい書き味だ。
非WebRTC環境では、より素直な同期APIも用意されている。POST https://api.inworld.ai/tts/v1/voice に voiceId、modelId、text を送るだけで合成音声が base64 で返ってくる。
ElevenLabs・OpenAI・Hume──設計思想の対比
TTS-2の輪郭は、競合モデルとの対比で見えやすくなる。
ElevenLabs は「声の数」と「音質」で勝負してきた。1万種以上のプリセット声、声優マーケットプレイス、ダビング・効果音・音楽生成までを揃えた、コンテンツ制作の総合プラットフォームに近い設計だ。
OpenAI は2026年5月7日に GPT-Realtime-2 を発表した。GPT-5級の推論を音声に統合したモデルで、Zillow が最難関の社内ベンチマークで通話成功率を69%から95%に26ポイント引き上げたと報告している。一方で価格は入力1Mトークンあたり32ドル、出力64ドルと、Inworld の分あたり0.015ドルより一桁以上高い。
Hume AI は EVI(Empathic Voice Interface)で「感情」を一級市民に置いた。音声プロソディで約48次元、言語感情で約53次元という多数の感情ディメンションで応答を変える設計だが、声色プロンプトで足りる多くのケースでは過剰、と評されている。
Inworld TTS-2 はこれらと異なる立ち位置にある。Router が LLM の選択肢を縛らない設計のため、ElevenLabs のような自社モデル一択や、OpenAI のような自社推論セット販売を取らない。Inworld 自身の比較資料では、ElevenLabs の平均1M文字あたり料金と比較して約20倍安いと主張する。声優マーケットの厚みでは ElevenLabs に譲るが、「会話の流れに合わせて声を変える」価値で勝負する作りになっている。
Inworld音声基盤を使う4社:Talkpal・LiveKit・Ubisoft+Xbox・Logitech
Talkpal(リトアニア発、語学学習プラットフォーム) ──80以上の言語をAI教師との会話練習で学ぶサービスで、500万人の学習者を抱える。Inworld TTS への移行を1週間以内で完了し、4週間のA/Bテストで「TTS基盤コスト40%削減、機能利用率7%増、ユーザー継続率4%向上」を記録した。Co-Founder の Dimitri Dekanozishvili は採用理由を「低レイテンシ、高音質、多言語対応、適正価格」と説明している(Inworld 公式ケーススタディ)。
LiveKit(米国、リアルタイム音声インフラ) ──WebRTC基盤とエージェント開発フレームワークを提供。Inworld TTS-2 が公式統合の一つとして組み込まれており、Vapi・Pipecat・NLX・Layercode・Voximplant といった他のエージェント基盤も同様の対応を進めている。基盤側が Inworld を「採用される側」として位置付けている構図だ。
Ubisoft / Microsoft Xbox(フランス・米国、ゲーム業界) ──Ubisoft は NVIDIA Audio2Face と Inworld の Character Engine で AI NPC「Neo NPC」を構築している(Tom's Hardware 報道、GDC 2024)。Xbox は複数年の共同開発契約を結び、ゲームの対話・ストーリー・クエスト設計を支援するツールキット「Project Explora」を進める。TTS-2 の closed-loop は、NPC が「プレイヤーの語気に沿って応える」体験を一段引き上げると見られている。
Logitech Streamlabs(米国、配信ツール) ──CES 2025 で、NVIDIA と共同で「ゲームプレイ中のリアルタイム実況アシスタント」を Inworld 基盤上に構築し、500ミリ秒未満の応答を実現した(Inworld 公式エンタメ事例集)。消費者向けエンタメでは、Wishroll(19日で100万ユーザー)や Death by AI(2,000万プレイヤー)などでも Inworld 音声が稼働している。
なお TTS-2 自体は2026年5月5日リリースの新世代モデルで、「TTS-2 を本番運用している」と名指しされた採用企業の発表はまだ少ない。Inworld 音声基盤への移行が進めば、上記の顧客群が順次切り替わっていくと見られる。
この技術で何が作れるか──応用シナリオ3つ
垂直特化型:外来診療の「音から聴くトリアージ」
ベース実例:Talkpal が「学習者の話し方を聴き取って応答する」設計を、医療領域に移植する。Inworld 公式のヘルスケア向け資料では、HIPAA 対応・SOC 2 Type II・BAA(医療情報受託契約)に触れている。
発展アイデア:外来クリニックの予約・問診ボットに closed-loop 音声モデルを乗せ、患者が「胸が痛いんです」と早口で話した場合と、「先日もお話したんですが…」と力なく話す場合で、聞き返しの順序を変える。痛みの強度や不安の度合いを声色から拾い、緊急度の高い症状(胸痛+早い呼吸、めまい+不明瞭な発音)を検出すると人間の看護師に即時エスカレーションする。テキストの問診票では拾えない「声に出ている重症感」を一次トリアージに使うのが、closed-loop 音声でないと成立しない理由になる。
既存プロダクト置換型:コールセンターIVRをまるごと置き換える
ベース実例:Telnyx(米国、通信API)が「Inworld 基盤上で本番のエンタープライズ音声エージェントを稼働させている」事例を起点とする。Gartner はコールセンターの労務コストが対話AIにより2026年に800億ドル削減されると予測している。
発展アイデア:既存のIVR(「1番を押してください」式)を、closed-loop 音声エージェントで置き換える。OpenAI GPT-Realtime-2 で Zillow が達成した「最難関ベンチマークの成功率を69%→95%」のような改善は、不動産以外の業界(保険の事故受付、自治体の住民窓口、銀行の本人確認)でも再現性が高いと考えられる。Inworld の強みは、Router が裏側のLLMを差し替えやすい点。「金融用途は Anthropic、医療用途は Google、デフォルトは OpenAI」という切り分けをモデル非依存で組める。Stable モードを選べば声の揺らぎを抑え、業務的トーンを保てる。
新カテゴリ創出型:声色同期型のロールプレイ研修
ベース実例:Talkpal が言語学習で実現した「学習者ごとに先生の話し方を寄せる」発想を、対人スキル訓練に展開する。
発展アイデア:営業ロールプレイ、医師の患者対応練習、コールセンター新人研修向けに、「練習相手のAIが、訓練生の話し方に応じてキャラを切り替える」プロダクトを作る。声を荒げる顧客役・無口でメモを取る上司役・困惑する患者役を、closed-loop で訓練生の応答に反応させる。既存のロールプレイ動画教材が「事前収録の決まった台本」しか出せないのに対し、TTS-2 は「訓練生の語気が強いと、相手のAIも反論を強めて押し返してくる」という動的な負荷を作れる。テキストベースのチャット練習では作れない体験だ。
採用する前に見ておくべきポイント
向くケース:エージェントが相手の感情や話し方の変化に応じて声色を変えるべき場面(コールセンター、コーチング、ゲームNPC、テレヘルス)。長時間の会話で同じ声を保つ必要があるサービス。
向かないケース:純粋なナレーション・読み上げ(ElevenLabs のほうが声の選択肢が圧倒的に多い)、極めて低遅延の組み込みやオンデバイス推論(クラウドAPI前提)、声優マーケットを使った商用コンテンツ制作(エコシステムが薄い)。
倫理面:closed-loop で感情に同期して話すAIは、それだけ説得力が高く、悪用された場合の影響も大きいと考えられる。EU AI Act は2026年8月2日からAI生成音声のラベリング義務化を予定しており、Inworld 自身は「ゼロデータ保持」「オンプレ展開可能」を打ち出すが、利用側で同意・録音・本人確認のフローを設計する必要がある。
もっと詳しく知りたい人へ
- Inworld 公式ブログ(Realtime TTS-2 発表):https://inworld.ai/blog/realtime-tts-2
- Inworld Realtime API アーキテクチャ解説:https://inworld.ai/realtime-api
- LiveKit Agents Inworld プラグイン:https://docs.livekit.io/agents/integrations/tts/inworld/
- Talkpal 導入事例(40%コスト削減の中身):https://inworld.ai/blog/talkpal-ai-scales-to-5-million-language-learners-with-inworld-tts
- Artificial Analysis Speech Arena リーダーボード:https://artificialanalysis.ai/text-to-speech/leaderboard
- 関連の学術的潮流(full-duplex 音声モデル Moshi、Kyutai):https://kyutai.org/Moshi.pdf
最後に──「話し方」がAIの個性になる時代へ
TTSの世界はここ数年、声の自然さで競ってきた。Inworld TTS-2 が示したのは、次の競争軸が「相手の話し方に合わせて応える設計」だということだ。テキストAIが「コンテキスト」を奪い合ったように、音声AIは「音そのもののコンテキスト」を奪い合うフェーズに入った。コンタクトセンター、ヘルスケア、教育、ゲーム──人間相手の業務の多くで、声の温度差が次の差別化要因になる。次にあなたが作るプロダクトの向こうにいる人は、AIに何を「聴き取って」もらいたいだろうか。
参考文献
- Inworld AI - Realtime TTS-2: A new frontier voice model https://inworld.ai/blog/realtime-tts-2
- Inworld AI - Realtime API architecture https://inworld.ai/realtime-api
- Inworld AI - Inworld vs ElevenLabs(20倍安い主張の出典) https://inworld.ai/resources/inworld-tts-1-5-max-vs-elevenlabs-multilingual-v2-greater-than-20x-cheaper-higher-quality
- Inworld AI - Talkpal AI scales to 5 million language learners with Inworld TTS https://inworld.ai/blog/talkpal-ai-scales-to-5-million-language-learners-with-inworld-tts
- Inworld AI - Best Voice AI for Enterprise Voice Agents(Telnyx・Strella 事例) https://inworld.ai/resources/best-voice-ai-for-enterprise-voice-agents
- Inworld AI - Best Voice AI for Interactive Entertainment(NBCU・Sony・Logitech CES 2025 sub-500ms 事例) https://inworld.ai/resources/best-voice-ai-for-interactive-entertainment
- Inworld AI - Voice AI for HIPAA-Aligned Patient Intake https://inworld.ai/resources/voice-ai-patient-intake
- Inworld AI - Python TTS API Tutorial https://inworld.ai/resources/python-tts-api-tutorial
- LiveKit Docs - Inworld TTS plugin(model="inworld-tts-2" のAPI仕様確認) https://docs.livekit.io/agents/integrations/tts/inworld/
- BusinessWire - Inworld Press Release(Realtime TTS-2 発表、Kylan Gibbs / Igor Poletaev 発言) https://www.businesswire.com/news/home/20260505096579/en/Inworld-Launches-New-Frontier-Voice-Model-That-Gives-AI-Agents-Contextual-Empathy
- MarkTechPost - Inworld AI Launches Realtime TTS-2: A Closed-Loop Voice Model https://www.marktechpost.com/2026/05/05/inworld-ai-launches-realtime-tts-2-a-closed-loop-voice-model-that-adapts-to-how-you-actually-talk/
- AIThority - Inworld Launches Frontier Voice Model with Contextual Empathy https://aithority.com/cognitive-science/voice/inworld-launches-new-frontier-voice-model-that-gives-ai-agents-contextual-empathy/
- TestingCatalog - Inworld AI launches Realtime TTS-2 https://www.testingcatalog.com/inworld-ai-launches-realtime-tts-2-model-for-live-conversations/
- AIDailyPost - Three Stability Modes https://aidailypost.com/news/inworld-ai-unveils-realtime-tts-2-three-stability-modes
- OpenAI - Advancing voice intelligence with new models in the API(GPT-Realtime-2、Zillow 69%→95%) https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
- Artificial Analysis - Text to Speech Leaderboard(Elo 1208 等の順位) https://artificialanalysis.ai/text-to-speech/leaderboard
- Tom's Hardware - Ubisoft, Nvidia, and Inworld AI Neo NPC partnership https://www.tomshardware.com/video-games/ubisoft-nvidia-and-inworld-ai-partnership-to-produce-neo-npc-game-characters-with-ai-backed-responses
- Inworld Blog - Xbox partners with Inworld AI(Project Explora) https://inworld.ai/blog/xbox-partners-with-inworld-ai-to-build-generative-ai-tools-for-game-development
- Inworld GitHub - API Examples(inworld-ai/inworld-api-examples) https://github.com/inworld-ai/inworld-api-examples
- Hume AI - Empathic Voice Interface (EVI) https://www.hume.ai/empathic-voice-interface
- Hume AI - Expression Measurement(音声プロソディ48次元・言語感情53次元) https://www.hume.ai/expression-measurement
- Kyutai - Moshi: a speech-text foundation model for real-time dialogue(full-duplex の学術的潮流) https://kyutai.org/Moshi.pdf
- Gartner - Conversational AI to reduce contact center labor costs by $80B in 2026 https://www.gartner.com/en/newsroom/press-releases/2022-08-31-gartner-predicts-conversational-ai-will-reduce-contac
- European Union AI Act - Article 50(AI生成コンテンツの透明性義務) https://artificialintelligenceact.eu/article/50/