音声合成AI(TTS、テキストを読み上げるAI)は、いま画像や文章を作るAIと同じくTransformerを土台にするのが当たり前だ。ところが、本番で動くTTSに、あえて主流を外した製品がある。米Cartesiaの「Sonic 3」だ。土台に選んだのは「State Space Model(SSM、状態空間モデル)」という別系統の設計で、リアルタイムに喋るAIに触れたことがあるなら、この選択は他人事ではない。なぜ主流を外すのか——答えは「速さ」で、しかもその速さは設計から論理的に導ける。
なぜ状態空間モデル(SSM)だと速いのか — Transformerの「二次」とSSMの「線形」
面白いのは作り手だ。SSMを一躍有名にした系列モデル「Mamba」の共同提案者Albert Guが、CEOのKaran GoelらとともにCartesiaを創業した。理論の提案者本人が製品に落とした形だ。
速さの源は、過去の文脈をどう覚えておくかの違いにある。Transformerは文を作るとき、これまで見た単語をすべて「KVキャッシュ」(過去の文脈を丸ごと貯めておく置き場)にため込み、新しい一語を出すたびに過去すべてを見直す。解説サイトThe Gradientの整理では、保持する状態は系列の長さに比例し、計算量は長さの「二次」で効く。ざっくり言えば、入力が10倍になると計算量はおよそ100倍に膨らむ。
状態空間モデル(SSM)はここが逆だ。過去を「固定サイズの状態」に圧縮して持ち越し、新しい入力が来たらその状態を上書きするだけ。全文を毎回読み返すのではなく、要点メモを更新し続けるイメージだ。だから入力が10倍になっても、1ステップあたりの計算量も保持量もほぼ変わらない(線形)。Cartesiaの技術ブログもこれを「系列長に線形。状態が伸び続けるTransformerとは逆」と説明する。この性質が、相手の発話中も途切れず音声を作り続けるリアルタイム用途で効く。Sonic 3が掲げる「応答を返し始めるまで100ミリ秒未満(sub-100ms)」は、後付けのチューニングではなく、この設計の選択から導かれる速さだ。AWSも公式の配信告知で、Sonic 3を最新のSSMストリーミングTTS・sub-100ms・42言語対応と明記している。
「100ms未満」と「188ms」、どちらを信じるか
ただし「速い」の数字は、誰がどこで測ったかで意味が変わる。独立した評価基盤Covalの2026年5月の計測では、Sonic-3が音を出し始めるまでの時間(TTFA)は中央値188ms。ElevenLabsのTurbo(264ms)など大手を上回り、TTSの中で最速級だ。公式の「100ms未満」と中央値188msがずれるのは測る対象の違い(モデル内部の生成遅延か、通信を含む実測か)で、矛盾ではない。実務ではこう読む——中央値は本物だが、Covalの計測ではばらつき(四分位範囲)がElevenLabs勢の3〜4倍大きい。「平均は最速級、ただし時々遅い回が混じる」。リアルタイム会話ではこのばらつきが効くため、採用前に自分の負荷で測りたい。
このコードはSSMの実演ではなく、低遅延ストリーミングの「呼び方」だ
ひとつ注意したい。次のコードはSSMの内部を見せるものではない。状態の圧縮はライブラリの内側に隠れ、コードには現れない。見えるのは「低遅延ストリーミングの呼び出し方」——テキストを届いた端から送り、音声をできた端から受け取る往復だ。SSMの線形性は"なぜ速いか"の理由、コードは"どう使うか"の入口、と切り分けて読んでほしい。
# pip install 'cartesia[websockets]'
from cartesia import Cartesia
import os
client = Cartesia(api_key=os.getenv("CARTESIA_API_KEY"))
# WebSocketを1本開き、「テキスト送信」と「音声受信」を同じ接続で同時に流す
with client.tts.websocket_connect() as connection:
# context = 連続ストリーム。model_idは現行GAの "sonic-3.5"
ctx = connection.context(
model_id="sonic-3.5",
# voiceのidはCartesiaダッシュボード(Voice Library)で取得できる識別子
voice={"mode": "id", "id": "f786b574-daa5-4673-aa0c-cbe3e8534c02"},
output_format={"container": "raw", "encoding": "pcm_f32le", "sample_rate": 44100},
)
# テキストを「全文を待たず」少しずつ push する(=低遅延の肝)
for part in ["Hi there! ", "Welcome to ", "Cartesia Sonic."]:
ctx.push(part) # continue: true(まだ続きがある)
ctx.no_more_inputs() # continue: false(入力終了を通知)
# 音声チャンクを「生成された端から」受け取る(初音までの待ちを最小化)
for response in ctx.receive():
if response.type == "chunk" and response.audio:
play(response.audio) # play()は任意の再生処理。自前で用意する(例:ffplayへ流す)
elif response.type == "done":
break
骨格はシンプルだ。Cartesia()でクライアントを作り、websocket_connect()で接続を開き、context()でストリームを作る。あとはpush()でテキストを送り、receive()で音声を受け取るだけ。model_idの「sonic-3.5」は2026年5月にGA(正式提供)となった現行版。末尾のplay()は紙面用の仮の再生関数で、そのままでは動かない——動かすときは公式クイックスタートの完全なサンプルを参照してほしい。
弱点は「長文からの想起」、本番で背負ったServiceNowの現場
SSMは万能ではない。過去を固定サイズに圧縮するという同じ性質が、弱点にもなる。長い文脈から特定の一点を正確に思い出す「retrieval(長文からの想起)」では、履歴を丸ごと持てるTransformerに分があり、固定状態のSSMは不利になりやすい。Cartesiaの主任研究者Albert Gu自身も技術ブログでこれを認め、将来の本命はSSMと、Transformer型の注意の仕組みを組み合わせたハイブリッドだと明言している。速いのは事実だが、速さと弱点は同じ設計から生まれている。
では、この低遅延音声はどこで本番稼働しているのか。最も裏が取れているのがServiceNowだ。同社はIT運用や顧客対応を自動化する「AI Voice Agents」の音声合成にCartesiaのSSM音声を採用する。Cartesiaの発表だけでなくServiceNow公式コミュニティの記事でも確認できる、数少ない第三者裏付けの事例だ(版表記の揺れがあり、確実なのは「CartesiaのSSM音声を使う」点まで)。注目したいのは採用の決め手だ。音声合成の応答は90ミリ秒、SOC2・HIPAA・GDPR・PCIに準拠し、ネットワークから切り離した完全エアギャップ環境でも動かせる。電話で顧客対応する企業では、速さと同じくらいこの「どんな規制下で動かせるか」が採用を左右する。ServiceNowを動かしたのは、速さに加えてこの本番運用の堅さだった。ほかにコンタクトセンター自動化のReplicant(DoorDash等を自動化)やTogether AIも採用するが、ベンダー発表が中心で第三者検証は乏しく、名前を挙げるにとどめる。
おわりに──速さも弱点も、同じ設計から来る
Sonic 3の速さは、賢いチューニングではなく、Transformerを使わない設計判断そのものの結果だ。だからこそ、retrievalのような苦手も同じ理由から生まれる。「なぜ速く、なぜ何かを苦手とするのか」を仕組みから掴んでおけば、次に音声AIを選ぶときも、自分が欲しいのが途切れない速さなのか、長い文脈の記憶力なのかを見極められる。状態空間モデルは、その問いに「速さ」で答える現実的な選択肢の一つだ。
参考文献
- AWS - Cartesia Sonic 3 on SageMaker JumpStart(Sonic 3=SSM・sub-100ms・42言語・SSMLの公式確認): https://aws.amazon.com/about-aws/whats-new/2026/02/cartesia-sonic-3-on-sagemaker-jumpstart/
- Cartesia Blog - Mamba-3(SSMの線形 vs Transformerの二次・retrieval弱点・将来のハイブリッド・創業者系譜): https://blog.cartesia.ai/p/mamba-3
- The Gradient - Mamba Explained(Transformer O(n)状態 vs Mamba O(1)状態の計算量整理): https://thegradient.pub/mamba-explained/
- Cartesia Blog - Introducing Sonic(初代Sonic 2024のTTSベンチ・創業者・SSM設計思想): https://cartesia.ai/blog/sonic
- Gradium - TTS Latency Benchmark 2026(独立計測Coval由来: Sonic-3 P50 188ms/IQR 100ms、ElevenLabs/Deepgram比較。掲載元は競合のため論調は割引): https://gradium.ai/content/tts-latency-benchmark-2026
- Cartesia Docs - Realtime Text-to-Speech Quickstart(概念コードのAPI名突合: Cartesia / websocket_connect / context / push / no_more_inputs / receive): https://docs.cartesia.ai/get-started/realtime-text-to-speech-quickstart
- Cartesia Docs - Changelog 2026(model_id=sonic-3.5が2026年5月GA・旧モデル廃止): https://docs.cartesia.ai/changelog/2026
- ServiceNow Community - AI Voice Agents(第三者裏取り: 音声合成にCartesia Sonic採用、版表記揺れあり): https://www.servicenow.com/community/csm-articles/ai-voice-agents/ta-p/3518629
- Cartesia Customers - ServiceNow(90ms・SOC2/HIPAA/GDPR/PCI・エアギャップ): https://cartesia.ai/customers/servicenow
- Cartesia Customers - Replicant(DoorDash/AAA/Steve Madden/Fanatics・3〜5倍速・99.99%・+10bps。ベンダ発表): https://cartesia.ai/customers/replicant
- Cartesia Customers - Together AI(専属モデルパートナー・45万超開発者・42言語): https://cartesia.ai/customers/together-ai
- Cartesia Customers - Quora/Poe(100超音声・14言語・SOC2。2024年12月時点は原Sonic): https://cartesia.ai/customers/quora
- FutureAGI - ElevenLabs vs Cartesia TTS 2026(言語・声数の対比、router pattern): https://futureagi.com/blog/elevenlabs-vs-cartesia-tts-2026/
- Ringly - Voice AI Statistics 2026(音声AIエージェント市場 24億→475億ドル/CAGR34.8%の第三者集計): https://www.ringly.io/blog/voice-ai-statistics-2026
- a16z - The State of Generative Media 2026(生成メディアの本番採用文脈): https://a16z.com/the-state-of-generative-media-2026/