この記事の概要
記事執筆時の 2025/9/5 時点での手順です。
以下githubからRVC WebUIをクローンして使えるようにするまで。
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main
上記githubのREADMEにも手順は書かれているが、重要な箇所がいくつか抜けている。
visual studioのビルド環境が必要だったり。
ここでは、
- ビルド環境を整える
- conda環境を整える
- python3.10環境でRVC実行環境を整える
- 最終的にRVC-WebUIを立ち上げる
…までの手順をメモとして残す。
環境前提
- OS
- windows11
- グラフィックカード
- NVIDIA
ビルド環境を整える
visual studio (commuity)でbuild toolをインストール
- 以下公式サイトより、visual studio installerをダウンロードする。
- visual studio installerからvisual studio (commuity)のインストールに進む
- 今回はビルドToolをpythonから使うことが目的で、visual studioエディタを使用する想定でないため、commnunity版を導入。
- インストールの際の指定事項。
- ワークロード
- 「C++によるデスクトップ開発」 にチェック
- 個別コンポーネント(必要なものにチェック)
- MSVC v143 - VS 2022 C++ x64/x86 Build Tools
- Windows 10 SDK (10.0.19041+) または Windows 11 SDK
- CMake
- ワークロード
condaの導入と環境設定
conda-forgeのインストール
windows用インストーラーを以下からダウンロードして導入。
https://github.com/conda-forge/miniforge?tab=readme-ov-file#windows
conda環境の整備
x64 Native Tools Command Prompt for VS 2022から行う
スタートメニューに「x64 Native Tools Command Prompt for VS 2022」が追加されているので、まずはこれを立ち上げる。
インストールしたビルドTool関連にパスが通った状態のターミナルがたちあがるので、そこから以下を行う。
# python3.10のRVC用conda環境を作成する
conda create -n rvc310 python=3.10 -y
# conda環境のrvc310を起動する
conda activate rvc310
# 上から順に一行ずつ。
python -m pip install "pip==24.0" wheel setuptools
python -m pip install "numpy<2.0" cython==0.29.36
python -m pip uninstall -y torch torchvision torchaudio
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
python -m pip install --no-build-isolation "fairseq==0.12.2"
pip install ffmpeg-python
pip install soundfile librosa pydub praat-parselmouth av faiss-cpu
pip install python-dotenv
pip install pyworld
pip install torchcrepe
pip install "gradio==3.41.2"
pip install tensorboardX
ffmpegの準備
- ffmpeg.exeを以下からダウンロード
- ffmpeg.exeのあるディレクトリ「**\bin」に環境変数Pathを通す
RVC-WebUIをクローン
任意の場所に以下のmainブランチをクローン。
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main
不足しているファイルを追加する
事前訓練されたモデルや、RMVPEなどをバッチコマンドから追加。
<RVC-WebUIをクローンしたディレクトリ>/tools フォルダ以下にダウンロードに必要なスクリプトが入っているので、これを使う。
pythonにパスが通っている必要があります。
cd <RVC-WebUIをクローンしたディレクトリ>\tools
python download_models.py
参考:github Retrieval-based-Voice-Conversion-WebUI(その他事前訓練されたモデルの準備)
infer-web.pyを実行してwebUIを立ち上げる
conda環境を整えたときと同様に、「x64 Native Tools Command Prompt for VS 2022」から実行する。
RVC-WebUIをクローンしたディレクトリに移動して、infer-web.pyを実行する流れである。
cd <RVC-WebUIをクローンしたディレクトリ>\tools
conda activate rvc310
python infer-web.py
うまくいけば、ブラウザでweb-uiが表示される。

↑ 起動の例
動作テスト
5秒~10秒程度の短い音声ファイルを作成して、学習に用いた。
学習済みモデルの導入
boothなどで配布している学習済みモデル(v2対応)を使って動作確認を行う。
今回はテストのため、以下で配布されているモデルを利用させていただいた。
https://mossan-hoshi.booth.pm/items/4765395
https://cho-rvc.booth.pm/items/4975124
学習済みデータの格納場所
(RVC webUIをクローンしたディレクトリ)\assets\weights
「音源リストとインデックスパスの更新」ボタンを押すと、「音源推論」のプルダウンに追加される。

indexファイルの格納場所
以下にindexファイルを格納すると、GUI側で自動判別するようになる
(RVC webUIをクローンしたディレクトリ)\logs
実行するとエラーするが、再読み込みからの実行で成功
GUIが無事起動し、動作確認を行うが、エラーになる。
ブラウザから再読み込み(リロード)を行って、再度試すと成功した。
テスト実行サンプル
特にパラメーターをいじることなく「ひとまず変換」するだけで、これくらいの制度の変換ができた。
※ピッチだけ+12しました。
元音声 (google drive sound file)
SpeedSpeechFemaleV2.pth (google drive sound file)
MODEL-AMAE ver2.pth (google drive sound file)
もしもデフォルト設定でこのレベルでの変換ができない場合には、セットアップの失敗や必要なファイルの不足などを疑ったほうがいい。
ひどく破綻している場合、少なくともパラメーターの修正だけでは絶対に解決しない。
