【手順メモ】RVC WebUIをgithubからクローンしてセットアップする方法

Posted at 2025-11-09

この記事の概要

　記事執筆時の 2025/9/5 時点での手順です。
以下githubからRVC WebUIをクローンして使えるようにするまで。
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main

上記githubのREADMEにも手順は書かれているが、重要な箇所がいくつか抜けている。
visual studioのビルド環境が必要だったり。

ここでは、

ビルド環境を整える
conda環境を整える
python3.10環境でRVC実行環境を整える
最終的にRVC-WebUIを立ち上げる

…までの手順をメモとして残す。

環境前提

OS
- windows11
グラフィックカード
- NVIDIA

ビルド環境を整える

visual studio (commuity)でbuild toolをインストール

以下公式サイトより、visual studio installerをダウンロードする。
visual studio installerからvisual studio (commuity)のインストールに進む
1. 今回はビルドToolをpythonから使うことが目的で、visual studioエディタを使用する想定でないため、commnunity版を導入。
インストールの際の指定事項。
1. ワークロード
  1. 「C++によるデスクトップ開発」にチェック
2. 個別コンポーネント（必要なものにチェック）
  1. MSVC v143 - VS 2022 C++ x64/x86 Build Tools
  2. Windows 10 SDK (10.0.19041+) または Windows 11 SDK
  3. CMake

condaの導入と環境設定

conda-forgeのインストール

windows用インストーラーを以下からダウンロードして導入。
https://github.com/conda-forge/miniforge?tab=readme-ov-file#windows

conda環境の整備

x64 Native Tools Command Prompt for VS 2022から行う

スタートメニューに「x64 Native Tools Command Prompt for VS 2022」が追加されているので、まずはこれを立ち上げる。
インストールしたビルドTool関連にパスが通った状態のターミナルがたちあがるので、そこから以下を行う。

# python3.10のRVC用conda環境を作成する
conda create -n rvc310 python=3.10 -y

# conda環境のrvc310を起動する
conda activate rvc310

# 上から順に一行ずつ。
python -m pip install "pip==24.0" wheel setuptools
python -m pip install "numpy<2.0" cython==0.29.36
python -m pip uninstall -y torch torchvision torchaudio
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
python -m pip install --no-build-isolation "fairseq==0.12.2"
pip install ffmpeg-python
pip install soundfile librosa pydub praat-parselmouth av faiss-cpu
pip install python-dotenv
pip install pyworld
pip install torchcrepe
pip install "gradio==3.41.2"
pip install tensorboardX

ffmpegの準備

ffmpeg.exeを以下からダウンロード
- https://ffmpeg.org/download.html
ffmpeg.exeのあるディレクトリ「**\bin」に環境変数Pathを通す

RVC-WebUIをクローン

任意の場所に以下のmainブランチをクローン。
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main

不足しているファイルを追加する

事前訓練されたモデルや、RMVPEなどをバッチコマンドから追加。
＜RVC-WebUIをクローンしたディレクトリ＞/tools フォルダ以下にダウンロードに必要なスクリプトが入っているので、これを使う。
pythonにパスが通っている必要があります。

cd ＜RVC-WebUIをクローンしたディレクトリ＞\tools
python download_models.py

参考：github Retrieval-based-Voice-Conversion-WebUI(その他事前訓練されたモデルの準備)

infer-web.pyを実行してwebUIを立ち上げる

conda環境を整えたときと同様に、「x64 Native Tools Command Prompt for VS 2022」から実行する。
RVC-WebUIをクローンしたディレクトリに移動して、infer-web.pyを実行する流れである。

cd ＜RVC-WebUIをクローンしたディレクトリ＞\tools
conda activate rvc310
python infer-web.py

うまくいけば、ブラウザでweb-uiが表示される。

↑ 起動の例

動作テスト

５秒～10秒程度の短い音声ファイルを作成して、学習に用いた。

学習済みモデルの導入

boothなどで配布している学習済みモデル（v2対応）を使って動作確認を行う。
今回はテストのため、以下で配布されているモデルを利用させていただいた。
https://mossan-hoshi.booth.pm/items/4765395
https://cho-rvc.booth.pm/items/4975124

学習済みデータの格納場所

(RVC webUIをクローンしたディレクトリ)\assets\weights

以下にダウンロードしたファイルを格納する。

「音源リストとインデックスパスの更新」ボタンを押すと、「音源推論」のプルダウンに追加される。

indexファイルの格納場所

以下にindexファイルを格納すると、GUI側で自動判別するようになる

(RVC webUIをクローンしたディレクトリ)\logs

実行するとエラーするが、再読み込みからの実行で成功

GUIが無事起動し、動作確認を行うが、エラーになる。

ブラウザから再読み込み（リロード）を行って、再度試すと成功した。

テスト実行サンプル

特にパラメーターをいじることなく「ひとまず変換」するだけで、これくらいの制度の変換ができた。
※ピッチだけ+12しました。

もしもデフォルト設定でこのレベルでの変換ができない場合には、セットアップの失敗や必要なファイルの不足などを疑ったほうがいい。
ひどく破綻している場合、少なくともパラメーターの修正だけでは絶対に解決しない。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up