モチベーション
RVC(Retrieval-based Voice Conversion)のボイチェン技術が凄いため、どのようにしたら変換していない声と変換しているの声を見分けられるのかということが気になったため。
免責
音声解析は素人なので、全く的外れなことを言っているかもしれません。
内容
- 肉声と,肉声をRVCを用いて変換した音声のそれぞれのスペクトルを比較する。
- Voicevoxを用いて,ずんだもんで同じ文章の音声を出力し、それを変換し、肉声から変換した場合との差異を取る。
使用した文章は
https://github.com/mmorise/rohan4600/blob/main/%E6%9C%97%E8%AA%AD%E8%80%85%E7%94%A8_html/10_SHORT800_1.html
こちらの2001を使用します。
また、RVCの学習に使用した音声データは
https://zunko.jp/multimodal_dev/login.php
マルチモーダルデータベースさんの九州そらのnormalボイスを使用させていただきました。
変換設定
肉声の変換
- ピッチ抽出アルゴリズム(选择音高提取算法):harvest
- 変調:+12
ずんだもんボイスの変換 - ピッチ抽出アルゴリズム(选择音高提取算法):harvest
- 変調:±0
変換前のスペクトル
105Hz付近に1次ピーク,その後倍音で2次,3次ピークとなっており,また2次ピークから順々に強度が弱くなっている。
RVCで変換した音声のスペクトル
※1オクターブ上げているため,それぞれのピークの周波数は2倍となっています。
肉声のスペクトルと異なり,1次ピークが最も大きく,倍音ではない280Hz付近にピークが出現している。また、倍音である400Hz付近のピークは変換元のスペクトルより強度が弱い結果となった。
ずんだもん(normal)を用いて,同じ文章を出力させた際のスペクトル
肉声の場合のスペクトルとは異なり,ピーク周波数の周りにおいても強度が強くでている。1次ピークと2次ピークが確認される。
ずんだもん(normal)で出力した音声を,RVCで変換した音声のスペクトル
肉声から変換した場合と同様に1次ピークのみが支配的で,2次ピークの強度は1次ピークと比較して弱くなる結果となった。
結論
RVCで変換した音声では,変換元のスペクトルの形状は保たれる傾向にあるが,2次ピーク以降の強度は変換元と比較して弱くなる傾向が見られた。
また,肉声からの変換だけではなくvoicevoxで出力した音声においても同様の傾向が見られるため,RVC起因によるものだと考えられる。
参考文献