Intelligent Speech Interactionとは
Intelligent Speech Interactionは、音声認識、音声合成、自然言語理解などの最先端の技術に基づいてリアルタイム音声認識、短文認識、音声合成、記録ファイル認識といったサービスを提供しています。
特徴としては、金融や保険、司法、電子商取引といった専門的な分野にも対応しています。
機能
Intelligent Speech Interactionの機能は大きく6つあります。
1.短文認識
1分以内の短い音声に対する認識機能。
音声検索や音声ショートメッセージなど、短い音声対話をするシーンでの利用が想定されています。
音声アシスタントやモバイルアプリなどに統合することも可能です。
2.リアルタイム音声認識
長さにかかわらず、オーディオストリームをリアルタイムで認識し、テキストに変換することができます。
ライブ動画のリアルタイム字幕や会議の議事録などでの利用が想定されています。
3.記録ファイルの認識
音声などの録画データから音声データをテキストに変換することができます。
議事録の要約やコールセンターでのセンシティブな単語の検出などでの利用が想定されています。
4.音声合成
テキストから自然な響きの音声に変換することができます。
イントネーションや音量の調整ができるため、オーディオブックの読み上げやスマートデバイスに利用することが想定されています。
5.音声合成スピーカーのカスタマイズ
トレーニングデータを使用して、スピーカーをカスタマイズすることが出来る機能です。
トレーニングデータは少量で済むため、より人間らしい声を使用したいシーンでの利用が想定されています。
6.自己学習プラットホーム
音声認識のパフォーマンスを向上させるのに役立るホットワードトレーニングとカスタム言語モデルを提供しています。
専門用語が多い利用シーンでの音声認識精度を向上させるために利用されることが想定されています。
料金
料金タイプは大きく分けて3つあります。
1.無料試用版
Intelligent Speech Interactionには無料試用版が準備されています。
従量課金制と異なるのは、利用できるサービスが制限され、期間も限定されています。
2.従量課金制
商用版でサービスを利用する際の料金制度です。
サービスによって、請求項目が異なります。
使用量は日単位で清算されます。
3.リソースプラン
サービスを使用する前に料金を支払うプラン。
リソースプランのクォータを使い切った後は従量課金制モードに切り替わります。
有効期限が切れるとリソースプランは無効になります。
各サービスの料金体系
各サービスの詳細な料金体系についてはこちら。
- リアルタイム音声認識
- 処理されたスピーチの合計時間
- 無料試用版
- 同時通話数が2件以内であれば、1日あたり無制限に利用
- 期間は3か月間
- 短文認識
- サービスが呼び出された回数
- 無料試用版
- リアルタイム音声認識と同様
- 記録ファイルの認識
- 処理された録音ファイルの合計時間
- 無料試用版
- 各暦日に最大合計2時間まで
- 期間は3か月間
- 音声合成
- サービスが呼び出された回数
- 無料試用版
- リアルタイム音声認識と同様
- 自己学習プラットフォーム
- カスタム言語モデルは最大10個まで無料で作成できる
- 音声合成スピーカーのカスタマイズ
- 別途お見積り
SDK
一部のサービスはSDKが用意されています。
それぞれのSDKで利用可能な言語はこちら。
サービス名 | 言語 |
---|---|
短文認識 | Java/C++ |
リアルタイム音声認識 | Java/C++ |
音声合成 | Java/C++ |
対応言語
現時点では、中国語、広東語、英語、日本語、韓国語、フランス語、インドネシア語に対応しているとのこと。
まとめ
多機能ではありますが料金体系が少し複雑なことと、SDKの対応言語が少ない印象です。
次回、実際に触りながら色々と確認していきたいと思います。