はじめに
Intelligent Speech Interactionは音声認識、音声合成、自然言語理解などのサービスが色々と集まったものです。今回はSpeech to Textの確認を行ってみたいと思います。
日本語にもしっかりと対応しています。
作成
最初にプロジェクトを作成します。Intelligent Speech Interactionの画面からAll projectsをひらき、Create Projectをクリックします。
作成後に右側のProject Settingsをクリックします。
プロジェクトの中ではARS=Speech to Text 、 TTS=Text to Speechの設定が行えます。
ASRのTo Configureをクリックします。
ちょっとした情報が表示されます
「テストセットを使用しないでください
オーディオテストセットが利用できない場合は、シナリオに基づいてモデルを選択できます。」
Confirm to useをクリックします。
公開前の注意です。
動作確認
動作確認はRestFulに対応しているのでCurlで確認できます。
https://www.alibabacloud.com/help/en/intelligent-speech-interaction/latest/short-sentence-recognition-restful-api-2-0
最初にTokenを確認します。
Temporary AcceddTokenを確認します。
次にAppKeyを確認します。
All Projectで各Projectに割り当てられたAppKeyを確認できます。
事前に録音した音声ファイルです。
下記は音声ファイルです。拡張子を変えているだけなので保存してwavファイルに変更してお使いください。
以下のようにCURLを打ちます。
curl -X POST -H "X-NLS-Token: 9bc1a6534c5e40489b28eed71c9086e9" http://nls-gateway-ap-southeast-1.aliyuncs.com/stream/v1/asr?appkey=D673dPOKhnQ0B24x --data-binary @./rec_38_.wav
結果はJSONで帰ってきます。
{"task_id":"5c6c5771f8024b4198f4dced3895c33f","result":"これはテストですテストテストテストああ","status":20000000,"message":"SUCCESS"}
音声をテキストに変換することが出来ました。
以上で音声をテキストに変換する方法を確認しました。
まとめ
音声をテキストに変換する方法はいくつかあります。クライアント上で処理してテキストに変換する方法、OpenAIのWhisperのようなSaaS、クラウド上で変換する方法などがあります。
精度、コスト、チューニングなど要件により検討して導入すると良いでしょう。
今回のIntelligent Speech Interactionも簡単に利用できるので試してみてはいかがでしょうか。