End-to-End音声処理ツールキットESPnetの紹介
以下の内容は、2019年12月時点での最新バージョンであるESPnet Version 0.6.0の内容に基づいています。
はじめに
名古屋大学でポスドクをやりながら、株式会社Human Dataware Labで働いている林知樹 (@kan-bayashi)と申します。
音信号処理に関わる研究をしています。好きなエディタはVim / Neovimです。
今日は、私が開発に参加しているEnd-to-End音声処理ツールキットESPnetについて簡単に紹介したいと思います。
ESPnetとは?
ESPnetは、End-to-End (Sequecne-to-Sequence)モデルに特化したオープンソースの音声処理ツールキットです。
ジョンズ・ホプキンス大学の渡部晋治氏をリーダーとして、様々な大学や研究機関、企業に属する日本人が中心となり開発を進めています。
ありがたいことに、既に様々な海外の研究機関に使っていただけているようで、2019年12月現在ESPnetの論文の被引用数は110を超えました (2018年9月出版)。
ESPnetはDefine-by-run形式のPytorch/Chainerをニューラルネットワークライブラリとして採用しており、様々な音声処理タスクを手軽に試すことができます。
ESPnetで処理できるタスクは主に以下の4つです。
- 音声認識 (Automatic Speech Recognition: ASR): 音声からテキストへのマッピング
- 音声合成 (Text-to-speech: TTS): テキストから音声へのマッピング
- 音声翻訳 (Speech Translation: ST): 音声から他言語テキストへのマッピング
- 機械翻訳 (Machine Translation: MT): テキストから他言語テキストへのマッピング
ESPnetでは、偉大な音声認識ツールキットであるKaldiに習い、これらの全てのタスクが統一されたレシピ形式でまとめられています。
本記事では、主にASRとTTSに焦点を当てたいと思います。
レシピとは?
ESPnetは、再現性に非常に力を入れています。この高い再現性を実現するためのキーがレシピです。
レシピとは、実験を再現するために必要な手順が全て含まれているスクリプト一式のことを指します。
ここで再現に必要な手順とは、データのダウンロード、前処理、特徴量抽出、モデルの構築、そしてモデルの評価を含みます。
つまり、レシピを実行するだけでユーザーは簡単に最新鋭の結果を再現することが可能です。
また、ほぼ全てのレシピで学習済みモデルを配布しており、学習用のリソースが確保できない方でも推論は試すことができます。
2019/12月現在で、ESPnetは英語、日本語、中国語を含む64個のレシピ (47コーパス, 36言語)をサポートしています。
サポートしているコーパスの一覧はここから見ることができます
レシピは、Stageと呼ばれる単位で構成されており、異なるタスク間でも統一的なデザインがなされています。
例えば、下記はASRとTTSのレシピの比較です。
上記の例では、Stage −1から2のデータのダウンロード/前処理/特徴量抽出/Json形式への変換までは全く同一となっています。
つまり、ASRモデルとTTSモデルの学習に必要なデータフォーマットが完全に統一されているため、簡単にASR用のレシピとTTS用のレシピを相互に変換することもできます。
サポートしている音声認識 (ASR)モデル
E2E-ASRで利用されるモデルの形式はいくつか存在しますが、ESPnetはほぼ全てをサポートしています。
- Connectionist Temporal Classification (CTC) [Graves, 2006]
- Attention-based encoder decoder [Chorowski+, 2015]
- Joint CTC / Attention [Watanabe+, 2017]
- RNN Transducer [Graves, 2012]
- Transformer [Vaswani+, 2017]
上記のモデルは、レシピの中でyaml
形式で書かれたconfigを入れ替えるだけ自由に試すことができます。
例えば、こちらはTransformerのconfig、こちらはRNNのconfigの例です。
また、上記の発展型としてさらに、
- マルチチャネルビームフォーマーネットワークを統合したencoder-decoderモデル [Ochiai+, 2017]
- 複数のエンコーダを備えたMulti-encoderモデル [Li+, 2019]
- 複数の発話が混合したMulti-speaker ASR用音源分離統合型encoder-decoderモデル [Seki+, 2018]
も実装されており、このような複雑なモデルもレシピを実行するだけ簡単に試すことが可能です。
さらには、最新のデータ拡張手法Specaug [Park+, 2019]もサポートされており、こちらもconfigを指定するだけ利用できます。
サポートしている音声合成 (TTS)モデル
E2E-TTSは、主に私が開発している部分になります。
E2E-TTSは、主にテキストから音声特徴量 (Mel-spectrogram)を生成するText2Melモデルと、音声特徴量 (Mel-spectrogram)から波形を生成するVocoderモデルに別れます。
現在サポートしているText2Melモデルは主に3つ+その派生型です。
- Tacotron 2 [Shen+, 2017]
- TTS-Transformer [Li+, 2018]
- FastSpeech [Liu+, 2019]
- Multi-speaker Tacotron 2 with pretrained speaker embedding [Jia+, 2018]
- Multi-speaker Transformer with pretrained speaker embedding
サポートしているVocoderモデルは以下の2つです。
- WaveNet [Oord+, 2016]
- Parallel WaveGAN [Yamamoto+, 2019]
ESPnet-TTSでは既に、最新鋭のNon-autoregressiveモデルであるFastSpeechとParallel WaveGANをサポートしており、簡単にリアルタイム音声合成モデルを構築することが可能です。
Google Colaboratoryで簡単にリアルタイム音声合成デモが試せますので是非どうぞ。
(現在のところ英語/日本語/中国語がデモで利用できます)
こんな感じの音声をほぼリアルタイムで生成することができます.
また、ESPnet-TTSの一部のレシピでは、ASRとの統一的なデザインを活かし、TTSで生成された音声が自動的にASRモデルで評価されるようになっています。
これにより、E2E-TTSで問題となる単語の抜け落ちや繰り返しを客観的指標により評価することができます。
他のツールキットの性能比較
ASR
ここでは、音声認識のベンチマークによく利用されるLibrispeechデータセットの結果を紹介します (2019年9月時点)。
評価指標はWord Error Rate (WER) [%]で、低いほど性能が高いことを示します。
Method | dev_clean | dev_other | test_clean | test_other |
---|---|---|---|---|
ESPnet Transformer | 2.2 | 5.6 | 2.6 | 5.7 |
Kaldi | 3.9 | 10.4 | 4.3 | 10.8 |
FAIR wav2letter++ | 3.1 | 10.1 | 3.4 | 11.2 |
RWTH E2E | 2.9 | 8.8 | 3.1 | 9.8 |
Nvidia Jasper | 2.6 | 7.6 | 2.8 | 7.8 |
Google SpecAug | N/A | N/A | 2.5 | 5.8 |
我々のモデルはGoogleのstate-of-the-artのモデルと同等の性能を達成していることが確認できると思います。
その他のタスクでの性能比較がみたい方は[Karita+, 2019]を参照してください。
TTS
ここから他のツールキットとの比較音声を聞くことができます (英語/日本語/中国語)。
主観評価の結果が知りたい方は[Hayashi+, 2019]を参照してください。
おわりに
本記事では、End-to-End音声処理ツールキットESPnetに紹介しました。
次の機会があれば、もう少し中身に迫っていきたいと思います。
ESPnetチームは常に開発者を募集しています!
音声認識・音声合成のレッドオーシャンに飛び込みたい人、一緒に最先端の研究開発を進めましょう!
興味がある方は是非@kan-bayashiに連絡してください。