LoginSignup
10
10

More than 3 years have passed since last update.

DeepSpeech(ASR. 音声認識)で日本語を学習させたいメモ

Posted at

現状成果物はありません.

背景

日本語の ASR(Automated Speech Recognition. 音声認識)やりたい(モデルがほしい).

自動スピーチ認識(ASR, automated speech recognition)ライブラリのメモ(2019 年 9 月 25 日時点)
https://qiita.com/syoyo/items/dc8ef3590c76cf3045b7

Mozilla deepspeech で speech-to-text する(English). アン・ハサウェイさんのスピーチの文字起こしにもチャレンジ
https://qiita.com/syoyo/items/9e5898344403b896bf04

英語はあるが, 日本語は自前で学習しないとダメっぽい.

DeepSpeech + JSUT データセットで試してみます.

JSUT

JSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)
https://sites.google.com/site/shinnosuketakamichi/publication/jsut

ありがとうございます.

日本語 End-to-end 音声合成に使えるコーパス JSUT の前処理 [arXiv:1711.00354]
https://r9y9.github.io/blog/2017/11/12/jsut_ver1/

参考になります.

DeepSpeech

JSUT は, 漢字の台本(transcript)と .wav だけなので, DeepSpeech で学習させるために前処理が必要になります.

KenKM

Hiragana based speech recognition for Japanese with DeepSpeech https://medium.com/sotuu/hiragana-based-speech-recognition-for-japanese-with-deepspeech-220d14047d51

MozillaのDeepSpeechで日本語音声認識エンジンを作る 〜ひらがなわかち書きで言語モデル〜
https://kouohhashi.qrunch.io/entries/TxTHZmOjX1HZgHCW

にあるように, KenLM を使って言語モデルを構築することになります.

TODO

  • KenLM で言語モデルを作る.
  • GiNZA あたりで文章を分解してみる.
  • BERT/XLNET で言語モデル作るのができるか試す.

References

10
10
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
10