More than 1 year has passed since last update.

Kokoro-UIAPI(Kokoro-82Mモデル) のインストールと使用方法

Last updated at 2025-02-07Posted at 2025-02-07

はじめに

Kokoro-UIAPI は、Kokoro-82Mのモデルを使って、テキストやSRT字幕に音声を付けることができるツールです。OpenAI API と互換性があり、複数の言語やキャラクターに対応しています。この記事では、Kokoro-UIAPI のインストール方法と基本的な使用方法について説明します。

機能概要

テキストとSRT字幕の音声付け: テキストやSRT字幕に音声を付けることができます。
オンライン試聴とダウンロード: 生成された音声をオンラインで試聴したり、ダウンロードしたりできます。
字幕の同期: 字幕のタイミングを調整することができます。
OpenAI API 互換: OpenAI API と互換性があります。

インストール方法

Linux 環境での準備

まず、Linux 環境で ffmpeg をインストールします。

sudo apt install ffmpeg
# または
sudo yum install ffmpeg

リポジトリのクローンと環境設定

次に、Kokoro-UIAPI のリポジトリをクローンし、Python 仮想環境を設定します。

git clone https://github.com/jianchang512/kokoro-uiapi.git
cd kokoro-uiapi

python -m venv venv
source venv/bin/activate

必要なパッケージのインストール

以下のコマンドで必要なパッケージをインストールします。

pip install -r requirements.txt

日本語の音声を生成するには、fugashi をインストールする必要があります。fugashi は、MeCab の Cython ラッパーで、日本語のトークン化と形態素解析を行うためのツールです。fugashi を使用するには辞書が必要です。UniDic が推奨されており、以下のコマンドでインストールできます。

pip install 'fugashi[unidic]' jaconv mojimoji
python -m unidic download

アプリケーションの起動

すべての準備が整ったら、アプリケーションを起動します。

python app.py

起動後、デフォルトのUIアドレスは http://127.0.0.1:5066 です。

API の使用方法

デフォルトのAPIアドレスは http://127.0.0.1:5066/v1/audio/speech です。以下のように POST リクエストを送信します。

API リクエストの例

{
    "input": "音声化したいテキスト",
    "voice": "音声キャラクター",
    "speed": 1.0
}

成功すると、MP3形式の音声データが返されます。

OpenAI SDK の使用例

以下は、OpenAI SDK を使用して音声を生成する例です。

from openai import OpenAI

client = OpenAI(
    api_key='123456',
    base_url='http://127.0.0.1:5066/v1'
)

try:
    response = client.audio.speech.create(
        model='tts-1',
        input='天気がいいから、散歩しましょう。',
        voice='jf_nezumi',
        response_format='mp3',
        speed=1.0
    )
    with open('./test_openai.mp3', 'wb') as f:
        f.write(response.content)
    print("MP3ファイルが test_openai.mp3 として保存されました。")
except Exception as e:
    print(f"エラーが発生しました: {e}")

対応キャラクター一覧

Kokoro-UIAPI は、以下のような日本語キャラクターに対応しています。

日本語キャラクター

jf_alpha
jf_gongitsune
jf_nezumi
jf_tebukuro
jm_kumo

まとめ

Kokoro-UIAPI は、多言語対応の音声生成ツールとして非常に便利です。OpenAI API との互換性もあり、さまざまな用途に活用できるでしょう。この記事が、Kokoro-UIAPI のインストールと使用の参考になれば幸いです。

詳細なドキュメントや最新情報については、GitHub リポジトリを参照してください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up