AmazonTranscribe使ってみた

Posted at 2020-12-21

はじめに

この記事は株式会社ナレッジコミュニケーションが運営する Amazon AI by ナレコム Advent Calendar 2020 の 22日目にあたる記事になります。
今回はAIを使用したAWSサービスを対象とした記事が良いということでしたのでサービスの説明を読んでいて面白そうだったAmazonTranscribeというサービスを使ってみました。

AmazonTranscribeとは

AmazonTrandcribeとは自動音声認識と呼ばれる深層学習のプロセスを使用して音声をテキストへ変換してくれるサービスです。
今回はReal-time transcriptionというリアルタイムでのテキストへの文字起こし機能とTranscription jobsという録音データからのテキストへの文字起こし機能を使ってみたいと思います。

Real-time transcription

まずはReal-time transcriptionを使用してみます。
AWSコンソールからAmazon Transcribeを選択。
機能の一覧からReal-time transcriptionを選択すると以下のような画面へ遷移します。

次にLanguageでJapanese,JP(ja-JP)を選択し右上のStart streamingを選択します。
後はマイクに喋りかけるだけです。

すると喋りかけた内容がコンソール画面上に表示されます。
今回はAWS公式ののAmazonTranscribe紹介文を文字起こしできるか試しています。
一通り文字起こししてみたい内容を喋り終わったらstop streamingを選択することで終了します。
自分が喋った内容はjson形式のファイルとしてダウンロードすることができます。
atom等で内容を確認することができます。自分の環境ではatmよりもメモ帳のほうが文字起こし部分を見つけやすかったです。

Transcription jobs

次は録音していたデータからの文字起こしを行ってみます。
Create transcription jobを選択してjobを作成していきます。
今回はtestという名前のjobを作成していきます。
Model typeはGeneral modelを選択し、Language settingsはSpecific languageを選択します。
Custom language modelは特定のユースケースに特化したモデルとなるため今回は選択しません。
Language settingsのAutomatic language identificationは文字起こしを行う言語がわからない際に選択します。
今回は日本語ということがわかっているためSpecific languageを選択しました。

他のオプションは今回は選択せずにjobを実行します。
しばらく待つとjson形式で文字起こしされたデータをダウンロードできます。
以下が今回の文字起こしデータです。
文字起こしの際に使った文章はReal-time transcriptionの際と同じAWS公式のAmazon Transcribe紹介文を使っています。

アマゾントランスクリームを使用するとデベロッパーは音声をテキストに変換する機能アプリケーションに簡単に。追加できますコンピューターでは音声データは検索および分析することは事実上不可能ですしたがって録音された。音声はアプリケーションで使用する前にテキストに変換する必要が、あります
これまで顧客はトランスクリプションを提供者と協力して費用のかかる契約に署名する必要があり自らのテクノロジースタックに組み込んでこのタスクを、行うことは困難でした。
これらのプロプロバイダーの多くはコールセンターで一般的な音質の低い通話音声など様々なし。ないようにうまく適合し、ない形式のテクノロジーを使用しているため精度が低下し、ます
あのーそのトランス位部は自動音声認識ええそうよオートマチックスピーチでコンビネーションと呼ばれる深層学習プロセスを使って迅速かつ高精度に音声をテキストに変換し、ます
アマゾントランス位部はカスタマーサービスの通話の文字起こし工藤クローズドキャプションや字幕の自動作成完全に検索可能なアーカイブを作成する際におけるメディアさんのメタデータの生成に使用できます
アマゾンと卵スクライブメディカルを使用すると医療関連の音声をテキストに。変換する機能臨獣ドキュメントはアプリケーションに追加できます

これだけでも役に立つのですがなかなかきちんと認識してくれない語句もあります。
その際に役に立つのがCustom vocabularyという機能です。
こちらの機能は認識しにくい語句を先に登録しておくことでその語句の認識性を高める事ができます。
今回は先程Transcription jobsを使用した際に認識しづらかった語句を登録してみましょう。
txtファイルに認識してほしい語句を一行ずつ入力し、好きな名前でファイルを保存します。
今回はアマゾントランスクライブやトランスクリプション提供者といった語句を登録させることにします。
次にコンソールからCustom vocabularyを選択し、Create vocabularyから登録することができます。

こちらで登録した後に再度Transcription jobsを再度作成します。
すると前回はなかったCustomizationという項目が増えていますのでここで先程作成したCustom vocabularyのjobを選択します。

この状態で再度文字起こしされたデータを確認してみます。
以下が今回の文字起こしデータです。

アマゾントランスクライブを使用するとデベロッパーは音声をテキストに変換する機能アプリケーションに簡単に。追加できます
コンピューターでは音声データは検索および分析することは事実上不可能です
したがって録音された。音声はアプリケーションで使用する前にテキストに変換する必要が、あります
これまで顧客はトランスクリプション提供者と協力して費用のかかる契約に署名する必要があり自らのテクノロジースタックに組み込んでこのタスクを、行うことは困難でした
これらのプロプロバイダーの多くはコールセンターで一般的な音質の低い通話音声など様々なし。ないようにうまく適合しない形式のテクノロジーを使用しているため精度が低下します
アマゾントランスクライブは自動音声認識ええそうよオートマチックスピーチでコンビネーションと呼ばれる深層学習プロセスを使って迅速かつ高精度に音声をテキストに変換し、ます
アマゾントランスクライブはカスタマーサービスの通話の文字起こし工藤クローズドキャプションや字幕の自動作成完全に検索可能なアーカイブを作成する際におけるメディアさんのメタデータの生成に使用できます
アマゾントランスクライブメディカルを使用すると医療関連の音声をテキストに。変換する機能臨獣ドキュメントはアプリケーションに追加できます

すると前回は認識してくれていなかったアマゾントランスクライブ、トランスクリプション提供者といった語句を認識してくれるようになっています。
他にも認識しづらかった語句を登録していくことで文字起こしの精度を上げることができます。
他の機能として不適切な語句を登録しておくことでその語句をマスクするVocabulary filteringという機能もあります。
Custom vocabularyとVocabulary filteringはReal-time transcriptionでも使用することができます。

まとめ

今回AmazonTranscribeを使ってみたのですがCustom vocabularyを使い精度を上げていくことでかなり使いやすくなると感じました。
時間がなく複数人の声が混じっている録音ファイル等を準備することができなかったため試せなかったのですが複数人が対象の際の精度次第ですが会議の議事録を取る際に予め録音しておき後ほど録音ファイルから文字起こしすることで議事録とすることも可能となるかもしれません。

参考記事

https://aws.amazon.com/jp/transcribe/

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up