最短10秒の音声でクローンを作れる「MiniMax-Speech」でいろいろしゃべらせる

Last updated at 2025-05-20Posted at 2025-05-20

はじめに

ノベルワークス所属のザワッチです！
たった10秒をインプットさせるだけで、音声クローンを作れると話題の「MiniMax-Speech」を使って、使用感を調査してみました。

MiniMaxとは

MiniMaxはシンガポールに本社を置く、マルチモーダルモデルの開発に軸を置いたAIパイオニア企業です。

MiniMax Chat、Hailuo AI、Talkieといった幅広い製品を開発しており、これらのモデルを駆使して、迅速なAIアプリケーション開発を進めることができます。

今回使用する音声クローンモデル「Minimax-Speach」はTransformerベースのText-To-Speachモデルです。

肝なのがエンコーダ層（Encoder）のようで、入力された音声から、その話者固有の声質や話し方といった特徴を抽出します。

すでに学習されているモデルに音声の特徴を加えられるので、人間の音声の特徴やさまざまな言語を知っている状態に、入力された音声を学習を加えて学習されるため、効率よく、精度がよくなるという仕組みのようです。

ゼロショットモデルなので、入力音声に依存して学習しているわけではないのですが、入力音声だけであたかもその人のような音声を生成することができることに長けています。

詳しい内容は、論文、テックレポートに記載されています。

音声クローン作成の流れ(GUI）

音声クローンの作成はいたって簡単です。

1.音声ファイルをアップロード or 録音
数十秒待つと、音声クローンができます。

名前、言語を設定して、いざ作成。

2.音声クローンの出来上がり
感情、スピード、ピッチなど詳細設定することができます。

無料プランの制約：

作成できるクローン数は最大3つ
音声生成できるテキスト数は合計10000字まで

音声クローン作成の流れ（API)

MiniMaxはAPIを提供しており、音声クローンだけではなく、テキスト・画像・動画生成など、様々なコンテンツが生成可能です。

事前準備

APIキーの発行
MiniMaxのアカウント登録をしたのちに、APIキーを発行しておきます。

GroupIdの取得
APIを使うにあたって、ユーザ固有に与えられるIdを取得しておきます。

APIのほうもいたって簡単に音声クローンが作成できます。

1.音声ファイルのアップロード（レスポンスにある file_id を取得しておく）
2.音声をクローン
3.クローン音声を使用（T2A V2というモデルを使う）

音声ファイルの制約:

形式： MP3, M4A, WAV
長さ：10秒から5分
大きさ：20MB未満

今回はAPI経由で音声クローンを作成してみます。

まず、音声ファイルをアップロードします。

# Request Example
curl --location 'https://api.minimaxi.chat/v1/files/upload?GroupId=${group_id}' \
--header 'authority: api.minimaxi.chat' \
--header 'content-type: multipart/form-data'  \
--header 'Authorization: Bearer ${api_key}' \
--form 'purpose="voice_clone"' \
--form 'file=@"Users/minimax/Downloads/audio.mp3"'

file_idが帰ってくるので保持しておきます。

# Request Example
{
    "file": {
        "file_id": your_file_id,
        "bytes": 5896337,
        "created_at": 1700469398,
        "filename": "for_test",
        "purpose": "voice_clone"
    },
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}

次に、クローンを作成します。

# Request Example
curl --location 'https://api.minimaxi.chat/v1/voice_clone?GroupId=${group_id}' \
--header 'authority: api.minimaxi.chat' \
--header 'authorization: Bearer ${api_key}' \
--header 'content-type: application/json' \
--data '{
    "file_id":your file id,
    "voice_id":"your voice id"
}'

# Response Example
{
    "input_sensitive": false,
    "input_sensitive_type": 0,
    "base_resp": {
        "status_code": 0,
        "status_msg": "success"
    }
}