0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

28K Star 突破!完全ローカルの AI ボイススタジオ「Voicebox」がすごい

0
Posted at

🎙️ 28K Star 突破!完全ローカルの AI ボイススタジオ「Voicebox」がすごい

はじめに

声をクローンして AI 音声を作るなら ElevenLabs、音声入力なら WisprFlow。どちらも素晴らしいツールだが、月額課金と音声データのクラウドアップロードは無視できない壁だ。

2026年5月、GitHub で 28,500 Star を獲得した Voicebox というプロジェクトが注目を集めている。MIT ライセンス、完全ローカル動作。ElevenLabs(音声出力)と WisprFlow(音声入力)の機能を一つのアプリに統合し、ローカル LLM でそれらをつないだ AI ボイススタジオだ。

対象読者

  • ElevenLabs の代替を探している開発者
  • AI Agent に音声出力機能を追加したい方
  • プライバシーを重視し、音声データをクラウドに送りたくない方

🎯 1. 数秒で声をクローン

数秒のリファレンス音声をアップロードするだけで、自分の声のモデルが作れる。23 言語に対応し、英語、中国語、日本語、アラビア語、ヒンディー語、スワヒリ語など幅広くカバー。

7 つの TTS エンジンを内蔵:

エンジン 強み
Chatterbox Turbo [laugh] [sigh] [gasp] の感情タグ対応
Qwen3-TTS 多言語クローン、「ゆっくり話して」「ささやき声で」などの自然言語指示を理解
Kokoro 82M の軽量モデル、CPU でも快動作、50 のプリセット音声
LuxTTS 約 1GB VRAM、48kHz、CPU で 150 倍リアルタイム
TADA HumeAI の音声言語モデル、700 秒以上の一貫した音声生成
Chatterbox Multilingual 23 言語すべて対応
Qwen CustomVoice リファレンス音声不要、9 つのプリセット音声

音声クローンが不要なら、50 以上のプリセット音声をすぐに使える。生成後の音声は、Spotify の Pedalboard ライブラリを使ったエフェクトパネル(リバーブ、ディレイ、コンプレッサー、ピッチシフト、コーラス)でリアルタイム調整可能。

🤖 2. AI Agent に「声」を与える MCP サーバー

Voicebox の最も注目すべき機能は、MCP(Model Context Protocol)サーバーの内蔵だ。

Claude Code、Cursor、Cline、Windsurf など、MCP 対応の AI Agent なら、1 行のコマンドで Voicebox を呼び出せる:

claude mcp add voicebox \
  --transport http \
  --url http://127.0.0.1:17493/mcp \
  --header "X-Voicebox-Client-Id: claude-code"

設定後、Claude Code がクローンした声で「テスト通過、マージ可能です」と話しかけてくる。

複数の Agent に異なる声を割り当てることも可能。コードレビュアー用の声、デプロイボット用の声——聞き分けられる。

さらに**「人格化」**機能も強力だ。各音声に「冷静なエンジニア」「辛口のコードレビュアー」といったペルソナを設定すると、ローカル LLM が Agent の発言をそのペルソナに合わせて書き換えてから音声合成する。声だけでなく、話し方そのものをカスタマイズできる。

⌨️ 3. グローバルホットキー音声入力

ホットキーを押しながら話し、離すと現在フォーカスしているテキストフィールドに自動ペースト。macOS ではアクセシビリティ API を使ってクリップボードを汚染せずに正確なペーストを実現。

音声認識は Whisper ベースで完全ローカル処理。オプションの LLM リファインメントで「えー」「あのー」といったフィラーを除去できる。

⚡ 4. ハードウェア対応

プラットフォーム バックエンド
Apple Silicon MLX(Metal、4〜5 倍高速)
NVIDIA GPU CUDA
AMD GPU ROCm
Intel Arc IPEX/XPU
CPU のみ Kokoro 82M で動作

macOS 用 DMG、Windows 用 MSI のインストーラーを提供。初回起動時に必要なモデルを自動ダウンロード。Kokoro は 82MB、Qwen3-TTS は数 GB。REST API と MCP Server は localhost:17493 で動作し、ドキュメントは http://127.0.0.1:17493/docs で確認できる。

まとめ

音声 I/O のローカル化は時間の問題だった。クラウドの利便性は認めつつも、音声データは生体情報であり、漏洩した場合のリスクはパスワード漏洩に匹敵する。

ここ 2 年で、オープンソースの TTS・STT・LLM はコンシューマーハードウェアでも十分実用的な品質に達した。Voicebox はその集大成とも言えるプロジェクトだ。

AI Agent はもはや無機質なテキストボックスである必要はない。話し、感情を持ち、人格を備えた協働パートナーへ——Voicebox はその可能性を示している。

GitHub: jamiepine/voicebox

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?