1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

RVCで変換した音声のスペクトルを変換前と比較する

Last updated at Posted at 2023-04-15

モチベーション

RVC(Retrieval-based Voice Conversion)のボイチェン技術が凄いため、どのようにしたら変換していない声と変換しているの声を見分けられるのかということが気になったため。

免責

音声解析は素人なので、全く的外れなことを言っているかもしれません。

内容

  • 肉声と,肉声をRVCを用いて変換した音声のそれぞれのスペクトルを比較する。
  • Voicevoxを用いて,ずんだもんで同じ文章の音声を出力し、それを変換し、肉声から変換した場合との差異を取る。

使用した文章は
https://github.com/mmorise/rohan4600/blob/main/%E6%9C%97%E8%AA%AD%E8%80%85%E7%94%A8_html/10_SHORT800_1.html
こちらの2001を使用します。

また、RVCの学習に使用した音声データは
https://zunko.jp/multimodal_dev/login.php
マルチモーダルデータベースさんの九州そらのnormalボイスを使用させていただきました。

変換設定

肉声の変換

  • ピッチ抽出アルゴリズム(选择音高提取算法):harvest
  • 変調:+12
    ずんだもんボイスの変換
  • ピッチ抽出アルゴリズム(选择音高提取算法):harvest
  • 変調:±0

変換前のスペクトル

※最大値を使用して,大きさは正規化してあります。
record_1.png

105Hz付近に1次ピーク,その後倍音で2次,3次ピークとなっており,また2次ピークから順々に強度が弱くなっている。

RVCで変換した音声のスペクトル

※1オクターブ上げているため,それぞれのピークの周波数は2倍となっています。
record_1.png

肉声のスペクトルと異なり,1次ピークが最も大きく,倍音ではない280Hz付近にピークが出現している。また、倍音である400Hz付近のピークは変換元のスペクトルより強度が弱い結果となった。

ずんだもん(normal)を用いて,同じ文章を出力させた際のスペクトル

record_1.png

肉声の場合のスペクトルとは異なり,ピーク周波数の周りにおいても強度が強くでている。1次ピークと2次ピークが確認される。

ずんだもん(normal)で出力した音声を,RVCで変換した音声のスペクトル

record_1.png

肉声から変換した場合と同様に1次ピークのみが支配的で,2次ピークの強度は1次ピークと比較して弱くなる結果となった。

結論

RVCで変換した音声では,変換元のスペクトルの形状は保たれる傾向にあるが,2次ピーク以降の強度は変換元と比較して弱くなる傾向が見られた。
また,肉声からの変換だけではなくvoicevoxで出力した音声においても同様の傾向が見られるため,RVC起因によるものだと考えられる。

参考文献

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?