Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
Google Inc.
元論文
複数話者の音声データを元に訓練し、訓練データに含まれない話者に対してもText-to-Speechをできるようにする。
背景
提案手法
Speaker encoderで話者の特徴を抽出
Synthesizerでテキストをエンコードし、Speaker encoderで抽出された特徴を連結
その後AttentionレイヤとDecoderにより、log-mel spectrogramを生成
log-mel spectrogramをVocoderに通し、waveformに変換する
Speaker encoder
log-melスペクトログラムを固定長の特徴ベクトルに変換
generalized end-to-end speaker verigication lossを最適化することで
同じ話者の音声の特徴ベクトルならコサイン類似度が高くなる。
訓練データは1.6秒の音声データ。
推論では音声データが800msごとに分けられ、最終的に平均を取り、正則化される。
Synthesizer
Tacotron2の構造を拡張している。
テキストをエンコードし特徴量を抽出。
その特徴量と話者の特徴量を連結し、Attentionレイヤを通してDecoderに入れて、log-melスペクトログラムを得る。
Tacotron2を拡張し、L2損失にL1損失を加えることで、ノイズを含んだデータに対してもロバストになる。
Neural vocoder
log-melスペクトログラムからwaveformに変換する。
Tacotron2のVocoderと同じ構造
多くの話者によるデータで学習することで、複数話者のvocoderができる。
Inference and zero-shot speaker adaptation
テキストと音声が一致している必要はない。
音声から合成に必要な話者の特徴ベクトルが推論されるから、
学習データに推論する話者が含まれなくて良い。
学習データに含まれなくても推論できる(zero-shot learning)
評価
評価指標: MOS(Mean Opinion Score)
客観的な聞き取りテスト
自然さと話者の本当の音声との類似性で評価する。
学習データに含まれている話者も含まれていない話者もまずまずの評価が得られた。