生波形を忠実に再現するHiFi-GAN

Last updated at 2022-12-01Posted at 2022-12-01

HiFiGANとは

入力となる「メルスペクトルグラム」という音声の中間表現から、直接音が消ける生波形を生成します。
HiFi-GANは入力を忠実に再現するニューラルネットワークのパラメータを推定します。

GANを使った高い再現精度と精度の評価を他の人が聞いても高いスコアを付けるというところです。
GANを使った音声の再現はあまり、成功していませんでしたが、HiFi-GANでは精度が高くなっております。

ジェネレータでメルスペクトルグラムから生波形を生成します。

２種類のディスクリミネーターで生波形を評価し敵対的学習を行います。MSDでさまざまなサイズの平滑化された音声を受け取り、MPDは不連続な波形を受け取ります。

こちらのコードを実行しました。詳しいアーキテクチャもこちらを参考にしてください。
https://github.com/jik876/hifi-gan

LJSPeechのデータを使って学習します。学習は思ったより時間がかかりませんでした。もちろんepochがデフォルトの3000とかだと、10時間以上はかかってくると思います。今回の実験では30epochぐらい回しましたがノイズはあるもののイントネーションはしっかりと再現できていました。

今回はメルスペクトルグラムから生波形を作るHiFi-GANをご紹介しました。
これにテキストからメルスペクトルグラムを生成するのを組み合わればテキストから生波形を生成させられます。
興味があるかたは試してみてください。