🎙️ 28K Star 突破!完全ローカルの AI ボイススタジオ「Voicebox」がすごい
はじめに
声をクローンして AI 音声を作るなら ElevenLabs、音声入力なら WisprFlow。どちらも素晴らしいツールだが、月額課金と音声データのクラウドアップロードは無視できない壁だ。
2026年5月、GitHub で 28,500 Star を獲得した Voicebox というプロジェクトが注目を集めている。MIT ライセンス、完全ローカル動作。ElevenLabs(音声出力)と WisprFlow(音声入力)の機能を一つのアプリに統合し、ローカル LLM でそれらをつないだ AI ボイススタジオだ。
対象読者
- ElevenLabs の代替を探している開発者
- AI Agent に音声出力機能を追加したい方
- プライバシーを重視し、音声データをクラウドに送りたくない方
🎯 1. 数秒で声をクローン
数秒のリファレンス音声をアップロードするだけで、自分の声のモデルが作れる。23 言語に対応し、英語、中国語、日本語、アラビア語、ヒンディー語、スワヒリ語など幅広くカバー。
7 つの TTS エンジンを内蔵:
| エンジン | 強み |
|---|---|
| Chatterbox Turbo |
[laugh] [sigh] [gasp] の感情タグ対応 |
| Qwen3-TTS | 多言語クローン、「ゆっくり話して」「ささやき声で」などの自然言語指示を理解 |
| Kokoro | 82M の軽量モデル、CPU でも快動作、50 のプリセット音声 |
| LuxTTS | 約 1GB VRAM、48kHz、CPU で 150 倍リアルタイム |
| TADA | HumeAI の音声言語モデル、700 秒以上の一貫した音声生成 |
| Chatterbox Multilingual | 23 言語すべて対応 |
| Qwen CustomVoice | リファレンス音声不要、9 つのプリセット音声 |
音声クローンが不要なら、50 以上のプリセット音声をすぐに使える。生成後の音声は、Spotify の Pedalboard ライブラリを使ったエフェクトパネル(リバーブ、ディレイ、コンプレッサー、ピッチシフト、コーラス)でリアルタイム調整可能。
🤖 2. AI Agent に「声」を与える MCP サーバー
Voicebox の最も注目すべき機能は、MCP(Model Context Protocol)サーバーの内蔵だ。
Claude Code、Cursor、Cline、Windsurf など、MCP 対応の AI Agent なら、1 行のコマンドで Voicebox を呼び出せる:
claude mcp add voicebox \
--transport http \
--url http://127.0.0.1:17493/mcp \
--header "X-Voicebox-Client-Id: claude-code"
設定後、Claude Code がクローンした声で「テスト通過、マージ可能です」と話しかけてくる。
複数の Agent に異なる声を割り当てることも可能。コードレビュアー用の声、デプロイボット用の声——聞き分けられる。
さらに**「人格化」**機能も強力だ。各音声に「冷静なエンジニア」「辛口のコードレビュアー」といったペルソナを設定すると、ローカル LLM が Agent の発言をそのペルソナに合わせて書き換えてから音声合成する。声だけでなく、話し方そのものをカスタマイズできる。
⌨️ 3. グローバルホットキー音声入力
ホットキーを押しながら話し、離すと現在フォーカスしているテキストフィールドに自動ペースト。macOS ではアクセシビリティ API を使ってクリップボードを汚染せずに正確なペーストを実現。
音声認識は Whisper ベースで完全ローカル処理。オプションの LLM リファインメントで「えー」「あのー」といったフィラーを除去できる。
⚡ 4. ハードウェア対応
| プラットフォーム | バックエンド |
|---|---|
| Apple Silicon | MLX(Metal、4〜5 倍高速) |
| NVIDIA GPU | CUDA |
| AMD GPU | ROCm |
| Intel Arc | IPEX/XPU |
| CPU のみ | Kokoro 82M で動作 |
macOS 用 DMG、Windows 用 MSI のインストーラーを提供。初回起動時に必要なモデルを自動ダウンロード。Kokoro は 82MB、Qwen3-TTS は数 GB。REST API と MCP Server は localhost:17493 で動作し、ドキュメントは http://127.0.0.1:17493/docs で確認できる。
まとめ
音声 I/O のローカル化は時間の問題だった。クラウドの利便性は認めつつも、音声データは生体情報であり、漏洩した場合のリスクはパスワード漏洩に匹敵する。
ここ 2 年で、オープンソースの TTS・STT・LLM はコンシューマーハードウェアでも十分実用的な品質に達した。Voicebox はその集大成とも言えるプロジェクトだ。
AI Agent はもはや無機質なテキストボックスである必要はない。話し、感情を持ち、人格を備えた協働パートナーへ——Voicebox はその可能性を示している。
