コールセンター構築サービスであるAmazon Connectと、音声認識システムであるAmazon Transcribeにはいくつかの基本的な組み合わせ方があります。
それぞれの詳細は別記事に譲るとして、3種類を簡単にまとめます。
バッチ音声認識
Amazon Connectの録音機能を用いて音声をS3に保存し、S3上の音声をバッチ処理でAmazon Transcribeに処理させます。
通話終了後に音声ファイルが生成されそこから音声認識が実行されるため、後処理のタイミングで利用するのは難しいですが、精度は一番高くなります。
「オペレータ側の通話」が録音単位であり、IVRでの応答などは録音対象となりません。外線転送も対象となりません。
リアルタイム音声認識
Amazon Connectのストリーム機能を用いて音声をKinesis Video Streamに流し、その音声ストリームをリアルタイムでAmazon Transcribeに処理させます。
通話と並行して音声認識が実行されるため、通話中のオペレータ支援や、通話完了後の後処理に利用することができます。
「ストリームした部分」が録音単位となるので、IVR含めて録音対象とすることができます。
Amazon Lex音声認識
Amazon Lexと組み合わせる場合、コールフロー上でLexを指定するだけで内部的にAmazon Transcribeによる音声認識が実行されます。
「Lexが音声認識した部分」が録音単位となるので、基本的にはLexの精度向上を行うための音声認識です。