More than 1 year has passed since last update.

RVCで変換した音声のスペクトルを変換前と比較する

Last updated at 2023-04-15Posted at 2023-04-15

モチベーション

RVC(Retrieval-based Voice Conversion)のボイチェン技術が凄いため、どのようにしたら変換していない声と変換しているの声を見分けられるのかということが気になったため。

音声解析は素人なので、全く的外れなことを言っているかもしれません。

また、RVCの学習に使用した音声データは
https://zunko.jp/multimodal_dev/login.php
マルチモーダルデータベースさんの九州そらのnormalボイスを使用させていただきました。

肉声の変換

※最大値を使用して,大きさは正規化してあります。

105Hz付近に1次ピーク,その後倍音で2次,3次ピークとなっており,また2次ピークから順々に強度が弱くなっている。

※1オクターブ上げているため,それぞれのピークの周波数は2倍となっています。

肉声のスペクトルと異なり,1次ピークが最も大きく,倍音ではない280Hz付近にピークが出現している。また、倍音である400Hz付近のピークは変換元のスペクトルより強度が弱い結果となった。

肉声の場合のスペクトルとは異なり,ピーク周波数の周りにおいても強度が強くでている。1次ピークと2次ピークが確認される。

肉声から変換した場合と同様に1次ピークのみが支配的で,2次ピークの強度は1次ピークと比較して弱くなる結果となった。

RVCで変換した音声では,変換元のスペクトルの形状は保たれる傾向にあるが,2次ピーク以降の強度は変換元と比較して弱くなる傾向が見られた。
また,肉声からの変換だけではなくvoicevoxで出力した音声においても同様の傾向が見られるため,RVC起因によるものだと考えられる。