結論から先にいうと
下記のNotebookを実行する。
https://colab.research.google.com/drive/1Qt23xyPifuU2DeRGBLY8YU8xTqnPNEWA?usp=sharing
経緯
ずんだもんが、韓国語や、広東語、英語、中国語を喋れるようになりました。
かわいいですね。
ただ、VOICEVOXのようにお手軽ではなく、ある程度の開発系の知識が必要です。
下記のREADMEに沿って環境を構築していきます。
https://github.com/zunzun999/zundamon-speech-webui
Google Colab上に構築してみる
Colabを扱うのも若干ハードルがありますが、共通の環境で動かせるので、ハードルが下がると思いますので、公開しました。
実際、Readmeの手順に沿ってやるだけですが、ちょこちょこ躓くところがありました。
最終的な手順は下記です。
https://colab.research.google.com/drive/1Qt23xyPifuU2DeRGBLY8YU8xTqnPNEWA?usp=sharing
Google Colabで実行してみたところ、躓いた点
手元にGPU環境が無いのでGoogle Colabで実行してみることにしました。
いくつかわかりにくかったので、私が躓いた点、Notebook実行時に修正した点を示します。
具体的な修正方法はNotebookを参照してください。
-
zundamon-speech-webui
配下に、https://github.com/zunzun999/GPT-SoVITS.git
リポジトリをcloneする必要がある - Zundamon Speech WebUIで指定されている、
numba==0.56
は現行(2025/02/24)ColabのPythonバージョンに対応していないので バージョンを上げる必要上がる。 -
https://huggingface.co/lj1995/GPT-SoVITS
は、指定されたディレクトリに中身を展開する必要がある。 -
https://huggingface.co/zunzunpj/zundamon_GPT-SoVITS
は、指定されたディレクトリに中身を展開する必要がある。 -
https://github.com/zunzun999/zundamon-speech-webui
の Troubleshootingに書かれている内容をGPT-SoVITS/zundamon_webui.py
に適用する必要がある- ※
GPT-SoVITS
は、先述のhttps://github.com/zunzun999/GPT-SoVITS.git
で Cloneしたもの。
- ※
- Colab で動かしているWebサーバは直接アクセスできないので、トンネリングでアクセスする必要がある
動作環境
CPUのみのランタイムでも動くようですが結構遅いですね。
GPU対応のランタイムだと、ぼちぼち時間がかかりますが比較的高速に音声が帰ってきます。
結論
ずんだもんがかわいい。
これで英語や中国語を勉強したい。