28K Star 突破！完全ローカルの AI ボイススタジオ「Voicebox」がすごい

Posted at 2026-05-26

🎙️ 28K Star 突破！完全ローカルの AI ボイススタジオ「Voicebox」がすごい

はじめに

声をクローンして AI 音声を作るなら ElevenLabs、音声入力なら WisprFlow。どちらも素晴らしいツールだが、月額課金と音声データのクラウドアップロードは無視できない壁だ。

2026年5月、GitHub で 28,500 Star を獲得した Voicebox というプロジェクトが注目を集めている。MIT ライセンス、完全ローカル動作。ElevenLabs（音声出力）と WisprFlow（音声入力）の機能を一つのアプリに統合し、ローカル LLM でそれらをつないだ AI ボイススタジオだ。

対象読者

ElevenLabs の代替を探している開発者
AI Agent に音声出力機能を追加したい方
プライバシーを重視し、音声データをクラウドに送りたくない方

🎯 1. 数秒で声をクローン

数秒のリファレンス音声をアップロードするだけで、自分の声のモデルが作れる。23 言語に対応し、英語、中国語、日本語、アラビア語、ヒンディー語、スワヒリ語など幅広くカバー。

7 つの TTS エンジンを内蔵：

エンジン	強み
Chatterbox Turbo	`[laugh]` `[sigh]` `[gasp]` の感情タグ対応
Qwen3-TTS	多言語クローン、「ゆっくり話して」「ささやき声で」などの自然言語指示を理解
Kokoro	82M の軽量モデル、CPU でも快動作、50 のプリセット音声
LuxTTS	約 1GB VRAM、48kHz、CPU で 150 倍リアルタイム
TADA	HumeAI の音声言語モデル、700 秒以上の一貫した音声生成
Chatterbox Multilingual	23 言語すべて対応
Qwen CustomVoice	リファレンス音声不要、9 つのプリセット音声

音声クローンが不要なら、50 以上のプリセット音声をすぐに使える。生成後の音声は、Spotify の Pedalboard ライブラリを使ったエフェクトパネル（リバーブ、ディレイ、コンプレッサー、ピッチシフト、コーラス）でリアルタイム調整可能。

🤖 2. AI Agent に「声」を与える MCP サーバー

Voicebox の最も注目すべき機能は、MCP（Model Context Protocol）サーバーの内蔵だ。

Claude Code、Cursor、Cline、Windsurf など、MCP 対応の AI Agent なら、1 行のコマンドで Voicebox を呼び出せる：

claude mcp add voicebox \
  --transport http \
  --url http://127.0.0.1:17493/mcp \
  --header "X-Voicebox-Client-Id: claude-code"

設定後、Claude Code がクローンした声で「テスト通過、マージ可能です」と話しかけてくる。

複数の Agent に異なる声を割り当てることも可能。コードレビュアー用の声、デプロイボット用の声——聞き分けられる。

さらに**「人格化」**機能も強力だ。各音声に「冷静なエンジニア」「辛口のコードレビュアー」といったペルソナを設定すると、ローカル LLM が Agent の発言をそのペルソナに合わせて書き換えてから音声合成する。声だけでなく、話し方そのものをカスタマイズできる。

⌨️ 3. グローバルホットキー音声入力

ホットキーを押しながら話し、離すと現在フォーカスしているテキストフィールドに自動ペースト。macOS ではアクセシビリティ API を使ってクリップボードを汚染せずに正確なペーストを実現。

音声認識は Whisper ベースで完全ローカル処理。オプションの LLM リファインメントで「えー」「あのー」といったフィラーを除去できる。

⚡ 4. ハードウェア対応

プラットフォーム	バックエンド
Apple Silicon	MLX（Metal、4〜5 倍高速）
NVIDIA GPU	CUDA
AMD GPU	ROCm
Intel Arc	IPEX/XPU
CPU のみ	Kokoro 82M で動作

macOS 用 DMG、Windows 用 MSI のインストーラーを提供。初回起動時に必要なモデルを自動ダウンロード。Kokoro は 82MB、Qwen3-TTS は数 GB。REST API と MCP Server は localhost:17493 で動作し、ドキュメントは http://127.0.0.1:17493/docs で確認できる。

まとめ

音声 I/O のローカル化は時間の問題だった。クラウドの利便性は認めつつも、音声データは生体情報であり、漏洩した場合のリスクはパスワード漏洩に匹敵する。

ここ 2 年で、オープンソースの TTS・STT・LLM はコンシューマーハードウェアでも十分実用的な品質に達した。Voicebox はその集大成とも言えるプロジェクトだ。

AI Agent はもはや無機質なテキストボックスである必要はない。話し、感情を持ち、人格を備えた協働パートナーへ——Voicebox はその可能性を示している。

GitHub: jamiepine/voicebox

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up