HiFiGANとは
入力となる「メルスペクトルグラム」という音声の中間表現から、直接音が消ける生波形を生成します。
HiFi-GANは入力を忠実に再現するニューラルネットワークのパラメータを推定します。
先行研究と比べてすごいところ
GANを使った高い再現精度と精度の評価を他の人が聞いても高いスコアを付けるというところです。
GANを使った音声の再現はあまり、成功していませんでしたが、HiFi-GANでは精度が高くなっております。
アーキテクチャー
ジェネレータ
ディスクリミネーター
2種類のディスクリミネーターで生波形を評価し敵対的学習を行います。MSDでさまざまなサイズの平滑化された音声を受け取り、MPDは不連続な波形を受け取ります。
試してみる
こちらのコードを実行しました。詳しいアーキテクチャもこちらを参考にしてください。
https://github.com/jik876/hifi-gan
LJSPeechのデータを使って学習します。学習は思ったより時間がかかりませんでした。もちろんepochがデフォルトの3000とかだと、10時間以上はかかってくると思います。今回の実験では30epochぐらい回しましたがノイズはあるもののイントネーションはしっかりと再現できていました。
まとめ
今回はメルスペクトルグラムから生波形を作るHiFi-GANをご紹介しました。
これにテキストからメルスペクトルグラムを生成するのを組み合わればテキストから生波形を生成させられます。
興味があるかたは試してみてください。