現状成果物はありません.
背景
日本語の ASR(Automated Speech Recognition. 音声認識)やりたい(モデルがほしい).
自動スピーチ認識(ASR, automated speech recognition)ライブラリのメモ(2019 年 9 月 25 日時点)
https://qiita.com/syoyo/items/dc8ef3590c76cf3045b7
Mozilla deepspeech で speech-to-text する(English). アン・ハサウェイさんのスピーチの文字起こしにもチャレンジ
https://qiita.com/syoyo/items/9e5898344403b896bf04
英語はあるが, 日本語は自前で学習しないとダメっぽい.
DeepSpeech + JSUT データセットで試してみます.
JSUT
JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)
https://sites.google.com/site/shinnosuketakamichi/publication/jsut
ありがとうございます.
日本語 End-to-end 音声合成に使えるコーパス JSUT の前処理 [arXiv:1711.00354]
https://r9y9.github.io/blog/2017/11/12/jsut_ver1/
参考になります.
DeepSpeech
JSUT は, 漢字の台本(transcript)と .wav だけなので, DeepSpeech で学習させるために前処理が必要になります.
KenKM
Hiragana based speech recognition for Japanese with DeepSpeech https://medium.com/sotuu/hiragana-based-speech-recognition-for-japanese-with-deepspeech-220d14047d51
MozillaのDeepSpeechで日本語音声認識エンジンを作る 〜ひらがなわかち書きで言語モデル〜
https://kouohhashi.qrunch.io/entries/TxTHZmOjX1HZgHCW
にあるように, KenLM を使って言語モデルを構築することになります.
TODO
- KenLM で言語モデルを作る.
- GiNZA あたりで文章を分解してみる.
- BERT/XLNET で言語モデル作るのができるか試す.
References
- Hiragana based speech recognition for Japanese with DeepSpeech https://medium.com/sotuu/hiragana-based-speech-recognition-for-japanese-with-deepspeech-220d14047d51
- Simple PPDB: Japanese https://anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P8-5.pdf