には日本語の TTS(Transformer or Tacotron2 + parallel wavegan)の pretrained model があります.
ESPnet オフィシャルの Colab で試すことができますが, standalone で動くようにもしましょう.
スクリプトやインストール設定はここにコミットしました.
とりあえず推論するだけであれば, espnet 内で kaldi のビルドは不要っぽいようです.
弁護士法72条を Tacotron2 で text-to-speech しました.
Super coool!
ちょっとおかしいところもありますが, 追加で句点などいれればうまくいくでしょうか.
Transformer だと生成した音声は途中で結果がおかしくなりました(設定を変える必要があるか, 長いフレーズは ESPnet の Transformer では対応していないかもですね).
TODO
- Transformer で長いフレーズにも対応する.
- ASR(音声認識)を試す
- libtorch で C++ で text-to-speech する(=> モバイルで動かしたい)
- 優秀な若人さまが, ESPNet をお極めなされることで人類史上最速で優秀な ASR + TTS 若人さまへと昇華なされるスキームを確立する旅に出たい