4
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

日本語話し言葉コーパス (CSJ) でGoogle Chromeの音声認識の精度をはかる

Posted at

はじめに

ちゃお・・・†
Google Chromeに音声認識機能があることはご存知でしょうか?わたしは最近、音声認識の研究のベースラインとしてそのGoogle Chromeの音声認識器の精度をはかりました。

結果から言うと2019年9月時点では、日本語話し言葉コーパス (CSJ) のcoreデータでのWord error rate (WER) は0.2251でした (トークナイズにその当時のmecab-ipadic-neologdを使用)

そのついでに、そのときに書いたコードを置くGitHubリポジトリを作りました。

以降はCSJのデータでGoogle Chromeの音声認識の精度をはかる方法を記します。

必要なもの

どうやるか

リポジトリ内READMEの拙い英文のとおりなのですが、簡単に書くと以下のとおりです。

  1. CSJのwavファイルを転記基本単位ごとに1つずつ切り分ける
  2. Flask (Python用Webアプリケーションフレームワーク) を用いた簡易Webサーバーを立ち上げる
  3. Google ChromeでFlaskサーバーにアクセスしてGoogle Chromeの音声認識機能をONにする
  4. 手順1で作ったwavファイルたちを順番に再生する
  5. FlaskサーバーのページのJavaScriptから音声認識結果をファイルに書き出す
  6. CSJのトランスクリプション (正解データ) と音声認識結果との単語誤り率 (WER) をはかる

IMG_1329.jpg

なお、手順4に行く前に上の画像のようにUSBオーディオキャプチャー的なものでパソコンのUSBポートとイヤフォンジャックを繋ぐ必要があります。ちなみに、わたしはデジ造音楽版を使いました。

それと手順4はWindowsではsoxコマンドを使っていて、soxコマンドの導入は一手間かかるのでこちらを参考にするとよいと思います。 https://qiita.com/teteyateiya/items/e4dc27e384d947b9946d

できたらいいなってこと

  • WER以外の評価尺度の対応
  • Google Chrome以外の日本語音声認識器との比較 (お金と手間のかからないものだとうれしいです) (Juliusの音声認識パッケージのモデルはCSJを含めたデータから作られているようなのでCSJのデータで評価するのは不適切?)
  • SoX on Windowsでの発話の最初と最後が省略されてしまう問題の解決あるいは代替案
  • ネイティブLinux環境での動作確認 (わたしの手元にはDockerとWSLしかありません)

もしcontributeしてくださる方がいればPull requestウェルカムです!

4
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?