More than 5 years have passed since last update.

DeepSpeech(ASR. 音声認識)で日本語を学習させたいメモ

Posted at 2019-12-23

現状成果物はありません.

背景

日本語の ASR(Automated Speech Recognition. 音声認識)やりたい(モデルがほしい).

自動スピーチ認識(ASR, automated speech recognition)ライブラリのメモ(2019 年 9 月 25 日時点)
https://qiita.com/syoyo/items/dc8ef3590c76cf3045b7

Mozilla deepspeech で speech-to-text する(English). アン・ハサウェイさんのスピーチの文字起こしにもチャレンジ
https://qiita.com/syoyo/items/9e5898344403b896bf04

英語はあるが, 日本語は自前で学習しないとダメっぽい.

DeepSpeech + JSUT データセットで試してみます.

JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)
https://sites.google.com/site/shinnosuketakamichi/publication/jsut

ありがとうございます.

日本語 End-to-end 音声合成に使えるコーパス JSUT の前処理 [arXiv:1711.00354]
https://r9y9.github.io/blog/2017/11/12/jsut_ver1/

参考になります.

JSUT は, 漢字の台本(transcript)と .wav だけなので, DeepSpeech で学習させるために前処理が必要になります.

MozillaのDeepSpeechで日本語音声認識エンジンを作る　〜ひらがなわかち書きで言語モデル〜
https://kouohhashi.qrunch.io/entries/TxTHZmOjX1HZgHCW

にあるように, KenLM を使って言語モデルを構築することになります.