Intelligent Speech Interactionで音声をテキストに変換する

AlibabaCloud

Posted at 2023-12-24

はじめに

Intelligent Speech Interactionは音声認識、音声合成、自然言語理解などのサービスが色々と集まったものです。今回はSpeech to Textの確認を行ってみたいと思います。

日本語にもしっかりと対応しています。

作成

最初にプロジェクトを作成します。Intelligent Speech Interactionの画面からAll projectsをひらき、Create Projectをクリックします。

名前を付けて作成します。

作成後に右側のProject Settingsをクリックします。

プロジェクトの中ではARS=Speech to Text 、 TTS=Text to Speechの設定が行えます。
ASRのTo Configureをクリックします。

ちょっとした情報が表示されます
「テストセットを使用しないでください
オーディオテストセットが利用できない場合は、シナリオに基づいてモデルを選択できます。」

Japaneseのモデルを選択します。

Confirm to useをクリックします。
公開前の注意です。

動作確認

動作確認はRestFulに対応しているのでCurlで確認できます。
https://www.alibabacloud.com/help/en/intelligent-speech-interaction/latest/short-sentence-recognition-restful-api-2-0

最初にTokenを確認します。
Temporary AcceddTokenを確認します。

次にAppKeyを確認します。
All Projectで各Projectに割り当てられたAppKeyを確認できます。

事前に録音した音声ファイルです。

下記は音声ファイルです。拡張子を変えているだけなので保存してwavファイルに変更してお使いください。

以下のようにCURLを打ちます。

curl -X POST -H "X-NLS-Token: 9bc1a6534c5e40489b28eed71c9086e9" http://nls-gateway-ap-southeast-1.aliyuncs.com/stream/v1/asr?appkey=D673dPOKhnQ0B24x --data-binary @./rec_38_.wav

結果はJSONで帰ってきます。

{"task_id":"5c6c5771f8024b4198f4dced3895c33f","result":"これはテストですテストテストテストああ","status":20000000,"message":"SUCCESS"}

音声をテキストに変換することが出来ました。
以上で音声をテキストに変換する方法を確認しました。

まとめ

音声をテキストに変換する方法はいくつかあります。クライアント上で処理してテキストに変換する方法、OpenAIのWhisperのようなSaaS、クラウド上で変換する方法などがあります。
精度、コスト、チューニングなど要件により検討して導入すると良いでしょう。
今回のIntelligent Speech Interactionも簡単に利用できるので試してみてはいかがでしょうか。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up