61
49

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

VOSKを使って日本語でストリームでローカル音声認識する

Last updated at Posted at 2022-05-13

VOSK

Kaldiがベースの完全ローカルで動作する音声認識ツールキット
日本語モデルが用意されてるしマイクでのストリーム認識もできる!!
こういうの待ってた。

Pythonで使ってみる

試した環境

  • Windows 10
  • python 3.9.6
  • pip 21.1.3

インストール

pip で一撃で入る
ただしpoetry環境だとエラーが出てインストールできなかった。
Python標準のvenv環境からpipコマンドにてインストールした

pip install vosk

モデルの準備

↑ここからJapaneseのものをダウンロードする。
2022/05/13時点での最新はvosk-model-small-ja-0.22

サンプルプログラムの入手

ここからクローン

git clone https://github.com/alphacep/vosk-api.git

実行

vosk-api/python/example/ に様々なサンプルプログラムが置いてある。
このディレクトリに、ダウンロードしたモデルのzipをmodelという名前にリネームして解凍する。
マイクでのストリーム認識はvosk-api/python/example/test_microphone.pyで試せる。

python test_microphone.py

結果

partialが認識途中の結果
textが最終結果

image.png

所感

  • 簡単なコマンド入力とかなら全然使えそう
  • VADとかは特になく、ずーっと聞き続けている
  • モデルがとても小さい(50MBくらい)
  • 語彙が少ない感じはある
  • 最終結果が返ってくるまでは少し遅いかな
  • 最近PyAudioが使いづらくなってきたのでsounddeviceでのサンプルは助かる

その他

61
49
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
61
49

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?