はじめに
Kokoro-UIAPI は、Kokoro-82Mのモデルを使って、テキストやSRT字幕に音声を付けることができるツールです。OpenAI API と互換性があり、複数の言語やキャラクターに対応しています。この記事では、Kokoro-UIAPI のインストール方法と基本的な使用方法について説明します。
目次
機能概要
- テキストとSRT字幕の音声付け: テキストやSRT字幕に音声を付けることができます。
- オンライン試聴とダウンロード: 生成された音声をオンラインで試聴したり、ダウンロードしたりできます。
- 字幕の同期: 字幕のタイミングを調整することができます。
- OpenAI API 互換: OpenAI API と互換性があります。
インストール方法
Linux 環境での準備
まず、Linux 環境で ffmpeg
をインストールします。
sudo apt install ffmpeg
# または
sudo yum install ffmpeg
リポジトリのクローンと環境設定
次に、Kokoro-UIAPI のリポジトリをクローンし、Python 仮想環境を設定します。
git clone https://github.com/jianchang512/kokoro-uiapi.git
cd kokoro-uiapi
python -m venv venv
source venv/bin/activate
必要なパッケージのインストール
以下のコマンドで必要なパッケージをインストールします。
pip install -r requirements.txt
日本語の音声を生成するには、fugashi
をインストールする必要があります。fugashi
は、MeCab の Cython ラッパーで、日本語のトークン化と形態素解析を行うためのツールです。fugashi
を使用するには辞書が必要です。UniDic が推奨されており、以下のコマンドでインストールできます。
pip install 'fugashi[unidic]' jaconv mojimoji
python -m unidic download
アプリケーションの起動
すべての準備が整ったら、アプリケーションを起動します。
python app.py
起動後、デフォルトのUIアドレスは http://127.0.0.1:5066
です。
API の使用方法
デフォルトのAPIアドレスは http://127.0.0.1:5066/v1/audio/speech
です。以下のように POST
リクエストを送信します。
API リクエストの例
{
"input": "音声化したいテキスト",
"voice": "音声キャラクター",
"speed": 1.0
}
成功すると、MP3形式の音声データが返されます。
OpenAI SDK の使用例
以下は、OpenAI SDK を使用して音声を生成する例です。
from openai import OpenAI
client = OpenAI(
api_key='123456',
base_url='http://127.0.0.1:5066/v1'
)
try:
response = client.audio.speech.create(
model='tts-1',
input='天気がいいから、散歩しましょう。',
voice='jf_nezumi',
response_format='mp3',
speed=1.0
)
with open('./test_openai.mp3', 'wb') as f:
f.write(response.content)
print("MP3ファイルが test_openai.mp3 として保存されました。")
except Exception as e:
print(f"エラーが発生しました: {e}")
対応キャラクター一覧
Kokoro-UIAPI は、以下のような日本語キャラクターに対応しています。
日本語キャラクター
- jf_alpha
- jf_gongitsune
- jf_nezumi
- jf_tebukuro
- jm_kumo
まとめ
Kokoro-UIAPI は、多言語対応の音声生成ツールとして非常に便利です。OpenAI API との互換性もあり、さまざまな用途に活用できるでしょう。この記事が、Kokoro-UIAPI のインストールと使用の参考になれば幸いです。
詳細なドキュメントや最新情報については、GitHub リポジトリを参照してください。