Qwen3-TTS で「声クローン」って本当にできるの?
最近 Alibaba のオープンソース音声モデル「Qwen3-TTS」が登場し、「ElevenLabs いらないんじゃ?」というくらい高品質な音声生成とボイスクローンが話題になっています。
この記事では、Jeff Geerling さんの動画内容を参考にしながら、「Qwen3-TTS で何ができるのか」「どうやって試すのか」「どんな危険性があるのか」を解説します。
Qwen3-TTS ってどんなもの?
- Alibaba(アリババ)が公開したオープンソースの音声生成モデルファミリー
(テキスト読み上げ TTS とボイスクローンの機能を持つ)。 - Hugging Face 上に公式デモがあり、ブラウザだけで試せる。
- いくつかのモデルサイズがあり、小さいモデルなら比較的ライトな環境でも動くよう設計されている。
Jeff さんの動画では「Raspberry Pi+外付け GPU や Mac、スマホでも動かせそう」とコメントしており、ローカル実行も現実的なレベルになってきています。
何ができるの?三つのモード
Hugging Face の Qwen3-TTS デモでは、大きく以下の 3 モードが用意されています。
- Voice Design
テキストによる「声の説明」(例:若い女性・落ち着いたトーンなど)を書くだけで、新しい合成音声のキャラクターを作るモード。 - Voice Clone(Base)
3 秒程度の音声と、その文字起こしテキストをアップロードし、その声をまねた音声を生成するモード。 - TTS(Custom Voice)
あらかじめ用意された話者(スピーカー)を選び、任意のテキストを読み上げさせる通常の TTS モード。
Jeff さんが動画で実演しているのは、このうち Voice Clone に相当する機能です。
実際にどうやって声をクローンするの?
ここでは「Hugging Face の Qwen3-TTS デモで、ボイスクローンを試す」イメージをざっくり説明します。
- ブラウザで Qwen3-TTS のデモページを開く
(Qwen3-TTS Demo – Hugging Face 上の Space)。 - Voice Clone のタブ(または同等の機能があるセクション)を選ぶ。
- 「参照音声(Reference Audio)」として、クローンしたい声の短い録音をアップロードする。
- その音声の文字起こし(Ref Text)を入力する(モデルが声とテキストを対応づけるため)。
- 「ターゲットテキスト(Target Text)」に、クローンした声でしゃべらせたい文章を入力する。
- 言語やモデルサイズを選び、「生成」ボタンを押す。
- 数十秒〜1分ほど待つと、クローンされた声で読み上げた音声が再生・ダウンロードできる。
Jeff さんは動画の中で、自分の声を数秒録音し、そのテキストを入力して、別の文章を喋らせるデモをしています。
イントネーションなどは完全ではないものの、短いフレーズなら「本物と勘違いされるレベル」であると指摘しています。
ElevenLabs と何が違うの?
| 項目 | Qwen3-TTS | ElevenLabs |
|---|---|---|
| 提供形態 | オープンソースモデル、Hugging Face デモあり。 | クラウドサービス・商用 SaaS。 |
| コスト | モデル自体は無料、デモは基本無料(制限あり)。 | 従量課金・サブスクなど有料プラン中心。 |
| 実行場所 | クラウドデモ+ローカル実行(PC・GPU 環境など)。 | 基本クラウド上での実行。 |
| 使い方 | 自分で環境構築も可能、細かいカスタムがしやすい。 | Web UI から簡単に使える、エコシステムが整っている。 |
| 倫理的リスク | オフラインでも動かせるため、本人に知られずに声をコピーしやすい。 | ある程度のガードレール・検知機能などがあるが、完全ではないとされる。 |
Jeff さんは「ElevenLabs もすでにかなり良いが、オープンソースの Qwen3-TTS が出てきたことで、無料・ローカルで同等レベルのことができる時代になった」と警鐘を鳴らしています。
楽しい技術だけど、危険もある
Jeff さんは、この技術を 「クリエイターとしては正直あまり嬉しくない」 と率直に話しています。
その理由として、次のような点を挙げています。
- 自分の声は「パスポート」のようなもので、本人確認にも使われる大事なアイデンティティ。
- 過去には、彼の声が勝手に AI クローンされ、企業のチュートリアル動画に使われた事例もある。
- 短いフレーズや、そもそも本人の声をよく知らない人にとっては、AI 音声でも十分「本物らしく」聞こえてしまう。
- オープンソース+ローカル実行により、「誰にも知られずに」「無料で」ボイスクローンができるようになってしまった。
特に、Jeff さんのように「声」そのものが収益源になっているクリエイターや声優、ナレーターにとっては、勝手にクローンされることは大きなリスクです。
おすすめの使い方(合法・倫理的な範囲)
- 自分の声をクローンして、動画のナレーションを効率化する(※自分の声に限る)。
- 社内向け資料や eラーニングのナレーションを自分の声で統一する。
- 完全オリジナルの「キャラクター音声」を Voice Design モードで作り、ゲームや同人作品に使う。
絶対にやってはいけないこと
- 他人の声(YouTuber、声優、同僚など)を本人の許可なくクローンして利用する。
- 本人になりすました詐欺電話や、誤解を招く宣伝に使う。
- 企業のロゴやキャラクターと組み合わせて、「公式が言っているように見える」偽コンテンツを作る。
Jeff さんのケースでは、企業が本人の許可なしに AI で声を真似て動画を作り、のちに謝罪する事態になりました。
技術的に「できる」ことと、法律的・倫理的に「やっていい」ことはまったく別だと意識する必要があります。
学びながら、責任を持って使おう
Qwen3-TTS の登場によって、「ElevenLabs のような高品質ボイスクローンが、無料かつオープンソースで誰でも使える時代」になりました。
一方で、Jeff Geerling さんの経験が示すように、他人の声を無断で利用することは、信頼関係やキャリアに深刻なダメージを与える可能性があります。
- 技術としては面白く、クリエイティブな活用の余地も大きい。
- しかし「自分の声だけを使う」「本人の明示的な許可を取る」といった基本ルールを守ることが重要です。
このサイトは、Qwen が公開している多機能なテキスト読み上げ(TTS)モデル「Qwen3‑TTS」をブラウザ上で試せるデモページです。 huggingface
このサイトでできること
- テキストを自然な音声に変換する
入力欄に文章を入れて実行すると、その文章を人間らしい声で読み上げた音声ファイルを生成します。 huggingface - 声の種類・言語を選べる
用意された複数の声(男女・年齢・話し方などが違う)や、複数言語(日本語を含む約10言語)から選んで音声を生成できます。 huggingface - 声のスタイルや感情の制御
「落ち着いたナレーション」「楽しそうに」「ロリ声で」など、テキストによる指示で話し方・感情・トーンを細かくコントロールできます。 zenn
特徴(Qwen3‑TTS モデル自体)
- 高品質・多言語対応
約500万時間・10言語の音声データで学習されたモデルで、自然さと発音の良さが高いのが特徴です。 arxiv - 高度なボイスクローン
約3秒の音声サンプルから話者の声質をクローンし、その声で任意の文章を読ませる機能に対応しています(クローン用の別スペースや API も提供)。 qiita - オープンソース / ローカル実行も可能
モデル本体とトークナイザーが Apache 2.0 ライセンスで公開されており、Hugging Face や GitHub からダウンロードして自分の PC やサーバーで動かせます。 simonwillison
代表的な関連スペースとの違い
| スペース名 | 主な用途 | 特徴 |
|---|---|---|
| Qwen/Qwen3‑TTS | 汎用 TTS デモ | テキスト→音声をシンプルに試せる基本デモ。 huggingface |
| Qwen/Qwen3‑TTS‑Voice‑Design | 声のデザイン | 「どんな声にしたいか」を文章で指定して新しい声を作ることに特化。 huggingface |
| Qwen/Qwen‑TTS‑Demo(旧版) | 旧世代 TTS | 以前の Qwen TTS モデルのデモで、Qwen3‑TTS はその改良版シリーズ。 huggingface |
どう使うイメージか(簡単な例)
- あなたが日本語で「これは Qwen3‑TTS のテストです。」と入力
- 「日本語」「落ち着いた男性ナレーション風」のような設定を選択
- 再生ボタンで、その条件に合わせた自然な読み上げ音声が生成・再生される、という流れです。 huggingface