初めに
Watson Speech to Text では、現在Previous-generationモデル(BroadbandModel, NarrowbandModel)とNext-generation(Multimedia, Telephony)のモデルを提供中ですが、2022年9月15日をもって、日本語とアラビア語を除いてPrevious-generationモデルの提供が終了します。
Next-generationモデルは、Previous-generationモデルよりも認識精度、認識速度があがっているとのことです。
(引用)
IBM Cloud Docs(https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-models-ng)
「Next-generation models have higher throughput than the previous-generation models, so the service can return transcriptions more quickly. Next-generation models also provide noticeably better transcription accuracy.」
そこで、実際に認識精度があがっているのか調査してみました。
使用データと認識精度の結果
今回、アメリカ英語と日本語で試してみました。
また、Next-generationはMultimedia、Previous-generationはBroadbandModelを使用しました。
認識精度評価としては、WER(Word Error Rate)を用います。
WERの算出については、以下を参考にさせていただきました。
https://qiita.com/Kchan/items/7bba1f066234ba24898b
英語データ
LibriSpeechのtest-cleanデータ
http://www.openslr.org/12/
日本語データ
Common Voice Corpus 6.1 (日本語)
https://commonvoice.mozilla.org/ja/datasets
※一部数字だけの発言等があるため、それらは除外しました
認識結果
Next-generation | Previous-generation | |
---|---|---|
英語 | 7.74 | 11.06 |
日本語 | 19.49 | 15.17 |
今回使用したデータでは、英語はNext-genrationモデルの方が、精度が良かったですが、
日本語では、Previous-generationの方が、精度が良いという結果になりました。
日本語は、Previous-generationを使用続けることが可能なので、場合によっては、
Previous-generationの使用もご検討ください。
Previous-generation から Next-generation への移行について
いくつかの機能(オプション)は、Next-generationでは使用できません。
また、独自のカスタムモデルを使用している場合は、再度、Next-genearionで学習させる必要があります。
詳細については、下記ドキュメントをご参照ください。
[IBM Cloud Docs]
https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-models-migrate