概要
AIアシスタントに音声読み上げ(TTS)機能を追加しようとした際、無料で使えるTTSサービスを徹底比較した結果をまとめる。APIキー不要のEdge TTSから、月500万文字無料のAzure/Google Cloud、完全ローカルのVoicevoxまで、用途別の最適解を提示する。
背景・問題
OpenClaw(AIアシスタント)でDiscordボイスチャンネル参加機能を有効化したが、OpenAI TTSは有料($15/1M文字)。無料で高品質な日本語TTSを探していた。
前提条件
- 日本語対応必須
- 可能な限り無料
- APIキー不要 or 簡単な設定
- 高品質な音声
調査結果
クラウドTTS(無料枠あり)
Google Cloud Text-to-Speech
- 無料枠: 月400万文字
- 日本語: ✅ 対応
- 音声: Gemini-TTS, Chirp 3: HD等の最新モデル利用可能
- 設定: Google Cloudプロジェクト + APIキー必要
Amazon Polly
- 無料枠: 月500万文字
- 日本語: ✅ 対応
- 音声: 標準音声(Neural音声は別料金の可能性)
- 設定: AWS アカウント + IAM設定必要
Azure Cognitive Services Speech
- 無料枠: 月500万文字
- 日本語: ✅ 対応
- 音声: Neural音声利用可能
- 設定: Azure サブスクリプション + リソース作成必要
ElevenLabs
- 無料枠: 月1万クレジット(約1万文字程度)
- 日本語: ⚠️ 対応するが品質は英語より劣る
- 特徴: 業界最高品質だが、日本語はまだ発展途上
OpenAI TTS
- 無料枠: ❌ なし
- 料金: $15/1M文字
- 日本語: ✅ 対応
- 品質: 非常に高い
完全無料(セルフホスト・APIキー不要)
Edge TTS(推奨)
- 無料: 完全無料
- 日本語: ✅ 対応(Neural音声)
- 音声:
ja-JP-NanamiNeural(女性)、ja-JP-KeitaNeural(男性) - 設定: APIキー不要
- npmパッケージ:
edge-ttsで利用可能 - ⚠️ 注意: WebSocket接続で403エラーが発生する場合あり(MS側の制限)
gTTS(Google Translate TTS)
- 無料: 完全無料
- 日本語: ✅ 対応
- 品質: 翻訳用のため低め
- 設定: pip install gTTS で即利用可能
Voicevox(日本語特化)
- 無料: 完全無料
- 日本語: ✅✅ 日本語専用
- 品質: 非常に高い(キャラクター音声多数)
- 設定: ローカルサーバー起動必要(Docker or 直接実行)
- 特徴: ゲーム・アニメ風のキャラクター音声が豊富
Piper TTS
- 無料: 完全無料
- 日本語: ⚠️ モデルは存在するが品質低め
- 特徴: 超高速・軽量(Raspberry Piでも動作)
- 用途: 組み込み用途
解決策:用途別おすすめ
1. とりあえず試したい → Edge TTS
npm install edge-tts
import { MsEdgeTTS } from 'edge-tts';
const tts = new MsEdgeTTS();
await tts.setVoice('ja-JP-NanamiNeural');
await tts.toFile('output.mp3', 'こんにちは、テストです');
- APIキー不要で即開始
- Neural音声で高品質
- 403エラー時はリトライ or 別手段へ
2. 本格利用(月500万文字まで) → Azure TTS
- Neural音声で高品質な日本語出力
- Azure無料アカウントで12ヶ月間利用可能
- 安定したAPI品質
3. 完全ローカル・オフライン → Voicevox
- ネットワーク不要
- キャラクター音声が使える
- Docker一行で起動:
docker run -p 50021:50021 voicevox/voicevox_engine
4. 軽量組み込み → Piper TTS
- RAM使用量極小
- 推論速度が非常に速い
- 組み込みデバイス向け
実際のテスト結果
Edge TTS
- npmインストール: ✅ 成功
- 音声リスト取得: ✅ 成功(2種類の日本語Neural音声確認)
- 音声生成: ❌ WebSocket 403エラー
- 原因推測: Microsoft側のレート制限 or IP制限
- 対策: 時間をおいてリトライ、またはAzure Speech Service無料枠へ移行
まとめ
| 用途 | おすすめ | 理由 |
|---|---|---|
| すぐ試す | Edge TTS | APIキー不要、Neural音声 |
| 安定運用 | Azure TTS | 月500万文字無料、Neural品質 |
| オフライン | Voicevox | 完全ローカル、キャラクター音声 |
| 組み込み | Piper TTS | 超軽量、高速推論 |
| 最高品質 | ElevenLabs | 業界最高(日本語は弱め) |
結論: まずはEdge TTSで手軽に開始し、安定性が必要ならAzure無料枠、オフラインが必要ならVoicevoxという3段構えが最適解。
タグ
TTS 音声合成 無料 Edge-TTS Azure Voicevox AI 日本語