10
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

最短10秒の音声でクローンを作れる「MiniMax-Speech」でいろいろしゃべらせる

Last updated at Posted at 2025-05-20

はじめに

ノベルワークス所属のザワッチです!
たった10秒をインプットさせるだけで、音声クローンを作れると話題の「MiniMax-Speech」を使って、使用感を調査してみました。

MiniMaxとは

MiniMaxはシンガポールに本社を置く、マルチモーダルモデルの開発に軸を置いたAIパイオニア企業です。

MiniMax Chat、Hailuo AI、Talkieといった幅広い製品を開発しており、これらのモデルを駆使して、迅速なAIアプリケーション開発を進めることができます。

今回使用する音声クローンモデル「Minimax-Speach」はTransformerベースのText-To-Speachモデルです。

肝なのがエンコーダ層(Encoder)のようで、入力された音声から、その話者固有の声質や話し方といった特徴を抽出します。

すでに学習されているモデルに音声の特徴を加えられるので、人間の音声の特徴やさまざまな言語を知っている状態に、入力された音声を学習を加えて学習されるため、効率よく、精度がよくなるという仕組みのようです。

image.png

ゼロショットモデルなので、入力音声に依存して学習しているわけではないのですが、入力音声だけであたかもその人のような音声を生成することができることに長けています。

詳しい内容は、論文、テックレポートに記載されています。

音声クローン作成の流れ(GUI)

音声クローンの作成はいたって簡単です。

1.音声ファイルをアップロード or 録音
数十秒待つと、音声クローンができます。
image.png

名前、言語を設定して、いざ作成。
image.png

2.音声クローンの出来上がり
感情、スピード、ピッチなど詳細設定することができます。
image.png

無料プランの制約:

  • 作成できるクローン数は最大3つ
  • 音声生成できるテキスト数は合計10000字まで

音声クローン作成の流れ(API)

MiniMaxはAPIを提供しており、音声クローンだけではなく、テキスト・画像・動画生成など、様々なコンテンツが生成可能です。

事前準備

  • APIキーの発行
    MiniMaxのアカウント登録をしたのちに、APIキーを発行しておきます。

image.png

  • GroupIdの取得
    APIを使うにあたって、ユーザ固有に与えられるIdを取得しておきます。

APIのほうもいたって簡単に音声クローンが作成できます。

1.音声ファイルのアップロード(レスポンスにある file_id を取得しておく)
2.音声をクローン
3.クローン音声を使用(T2A V2というモデルを使う)

音声ファイルの制約:

  • 形式: MP3, M4A, WAV
  • 長さ:10秒から5分
  • 大きさ:20MB未満

今回はAPI経由で音声クローンを作成してみます。

まず、音声ファイルをアップロードします。

# Request Example
curl --location 'https://api.minimaxi.chat/v1/files/upload?GroupId=${group_id}' \
--header 'authority: api.minimaxi.chat' \
--header 'content-type: multipart/form-data'  \
--header 'Authorization: Bearer ${api_key}' \
--form 'purpose="voice_clone"' \
--form 'file=@"Users/minimax/Downloads/audio.mp3"'

file_idが帰ってくるので保持しておきます。

# Request Example
{
    "file": {
        "file_id": your_file_id,
        "bytes": 5896337,
        "created_at": 1700469398,
        "filename": "for_test",
        "purpose": "voice_clone"
    },
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}

次に、クローンを作成します。

# Request Example
curl --location 'https://api.minimaxi.chat/v1/voice_clone?GroupId=${group_id}' \
--header 'authority: api.minimaxi.chat' \
--header 'authorization: Bearer ${api_key}' \
--header 'content-type: application/json' \
--data '{
    "file_id":your file id,
    "voice_id":"your voice id"
}'
# Response Example
{
    "input_sensitive": false,
    "input_sensitive_type": 0,
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}

できた音声クローンにテキストを入力させ、音声を生成させます。
といきたいところなのですが、クレジットを追加しないといけないらしく、それが25ドルからと書いており、断念。。。

色々話させてみる

今回作成した音声クローンにいろんなシナリオで話させてみます。

関西弁ありバージョン

右側の設定で、色々変えれるみたいです。とりあえずSuprisedな感じに(笑)

image.png

ところどころ、漢字の読み方がおかしいが、抑揚がいい感じに表現されているような気がする。

セルフバースデイメッセージ

image.png

Emotionの設定がうまく反映されているような気がします。

最後の英語の発音が、一回も入力音声で話していないのにもかかわらずめちゃくちゃよくてびっくりしました。

未来からの自分のメッセージ

image.png

映画「インデペンデンスデイ」の有名なスピーチ

image.png

AIの音声生成でこんなにパッションを感じたのは初めて。ここまでくると怖い。。。

しかし、パッション強めのところでは音がガビガビしてる感じ。

おわりに

こんなに短時間で簡単に音声クローンを作れるMiniMax社の技術に率直に感動しました。

それと同時に、簡単に作れるが故に悪用される危険性を強く感じました。

音声生成させた後の詳細設定だけでも、状況に応じた音声を生成できるので、いろいろカスタマイズできてワクワクしちゃいますね!

10
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?