LoginSignup
1

More than 1 year has passed since last update.

Watson Speech to Text の Next-generation モデルの性能評価をしてみた

Last updated at Posted at 2022-07-25

初めに

Watson Speech to Text では、現在Previous-generationモデル(BroadbandModel, NarrowbandModel)とNext-generation(Multimedia, Telephony)のモデルを提供中ですが、2022年9月15日をもって、日本語とアラビア語を除いてPrevious-generationモデルの提供が終了します。

Next-generationモデルは、Previous-generationモデルよりも認識精度、認識速度があがっているとのことです。
(引用)
IBM Cloud Docs(https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-models-ng)
「Next-generation models have higher throughput than the previous-generation models, so the service can return transcriptions more quickly. Next-generation models also provide noticeably better transcription accuracy.」

そこで、実際に認識精度があがっているのか調査してみました。

使用データと認識精度の結果

今回、アメリカ英語と日本語で試してみました。
また、Next-generationはMultimedia、Previous-generationはBroadbandModelを使用しました。
認識精度評価としては、WER(Word Error Rate)を用います。
WERの算出については、以下を参考にさせていただきました。
https://qiita.com/Kchan/items/7bba1f066234ba24898b

英語データ
LibriSpeechのtest-cleanデータ
http://www.openslr.org/12/

日本語データ
Common Voice Corpus 6.1 (日本語)
https://commonvoice.mozilla.org/ja/datasets
※一部数字だけの発言等があるため、それらは除外しました

認識結果

Next-generation Previous-generation
英語 7.74 11.06
日本語 19.49 15.17

今回使用したデータでは、英語はNext-genrationモデルの方が、精度が良かったですが、
日本語では、Previous-generationの方が、精度が良いという結果になりました。
日本語は、Previous-generationを使用続けることが可能なので、場合によっては、
Previous-generationの使用もご検討ください。

Previous-generation から Next-generation への移行について

いくつかの機能(オプション)は、Next-generationでは使用できません。
また、独自のカスタムモデルを使用している場合は、再度、Next-genearionで学習させる必要があります。
詳細については、下記ドキュメントをご参照ください。
[IBM Cloud Docs]
https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-models-migrate

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1