LoginSignup
1
1

More than 1 year has passed since last update.

生波形を忠実に再現するHiFi-GAN

Last updated at Posted at 2022-12-01

HiFiGANとは

入力となる「メルスペクトルグラム」という音声の中間表現から、直接音が消ける生波形を生成します。
HiFi-GANは入力を忠実に再現するニューラルネットワークのパラメータを推定します。

先行研究と比べてすごいところ

GANを使った高い再現精度と精度の評価を他の人が聞いても高いスコアを付けるというところです。
GANを使った音声の再現はあまり、成功していませんでしたが、HiFi-GANでは精度が高くなっております。

アーキテクチャー

ジェネレータ

ジェネレータでメルスペクトルグラムから生波形を生成します。
image.png

ディスクリミネーター

2種類のディスクリミネーターで生波形を評価し敵対的学習を行います。MSDでさまざまなサイズの平滑化された音声を受け取り、MPDは不連続な波形を受け取ります。
image.png

試してみる

こちらのコードを実行しました。詳しいアーキテクチャもこちらを参考にしてください。
https://github.com/jik876/hifi-gan

LJSPeechのデータを使って学習します。学習は思ったより時間がかかりませんでした。もちろんepochがデフォルトの3000とかだと、10時間以上はかかってくると思います。今回の実験では30epochぐらい回しましたがノイズはあるもののイントネーションはしっかりと再現できていました。

まとめ

今回はメルスペクトルグラムから生波形を作るHiFi-GANをご紹介しました。
これにテキストからメルスペクトルグラムを生成するのを組み合わればテキストから生波形を生成させられます。
興味があるかたは試してみてください。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1