LoginSignup
0
0

Intelligent Speech Interactionで音声をテキストに変換する

Posted at

はじめに

Intelligent Speech Interactionは音声認識、音声合成、自然言語理解などのサービスが色々と集まったものです。今回はSpeech to Textの確認を行ってみたいと思います。

日本語にもしっかりと対応しています。

作成

最初にプロジェクトを作成します。Intelligent Speech Interactionの画面からAll projectsをひらき、Create Projectをクリックします。
image.png

名前を付けて作成します。
image.png

作成後に右側のProject Settingsをクリックします。
image.png

プロジェクトの中ではARS=Speech to Text 、 TTS=Text to Speechの設定が行えます。
ASRのTo Configureをクリックします。
image.png

ちょっとした情報が表示されます
「テストセットを使用しないでください
オーディオテストセットが利用できない場合は、シナリオに基づいてモデルを選択できます。」
image.png

Japaneseのモデルを選択します。
image.png

Confirm to useをクリックします。
公開前の注意です。
image.png

動作確認

動作確認はRestFulに対応しているのでCurlで確認できます。
https://www.alibabacloud.com/help/en/intelligent-speech-interaction/latest/short-sentence-recognition-restful-api-2-0

最初にTokenを確認します。
Temporary AcceddTokenを確認します。
image.png
image.png

次にAppKeyを確認します。
All Projectで各Projectに割り当てられたAppKeyを確認できます。
image.png

事前に録音した音声ファイルです。

下記は音声ファイルです。拡張子を変えているだけなので保存してwavファイルに変更してお使いください。
rec.wav

以下のようにCURLを打ちます。

curl -X POST -H "X-NLS-Token: 9bc1a6534c5e40489b28eed71c9086e9" http://nls-gateway-ap-southeast-1.aliyuncs.com/stream/v1/asr?appkey=D673dPOKhnQ0B24x --data-binary @./rec_38_.wav

結果はJSONで帰ってきます。

{"task_id":"5c6c5771f8024b4198f4dced3895c33f","result":"これはテストですテストテストテストああ","status":20000000,"message":"SUCCESS"}

音声をテキストに変換することが出来ました。
以上で音声をテキストに変換する方法を確認しました。

まとめ

音声をテキストに変換する方法はいくつかあります。クライアント上で処理してテキストに変換する方法、OpenAIのWhisperのようなSaaS、クラウド上で変換する方法などがあります。
精度、コスト、チューニングなど要件により検討して導入すると良いでしょう。
今回のIntelligent Speech Interactionも簡単に利用できるので試してみてはいかがでしょうか。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0