More than 1 year has passed since last update.

AI-102試験対策のまとめ「Speech Service」

Last updated at 2023-11-02Posted at 2023-10-31

はじめに

Azure AI Engineer Associate(AI-102)取得に向けた勉強でまとめた内容を本記事では投稿しています。
試験範囲の内容を私が勉強していく中で、
・忘れてしまっていた内容
・他の知識と絡めて理解した方が良い内容
・Microsoft Learnの読解に苦戦した内容
などをできるだけ分かりやすく簡潔にまとめることを意識しています。
Azureの勉強を一から始め、AI-102取得を目指している方の参考になれば幸いです。
※本記事の内容が必ず試験に出るわけではないこと、ご注意ください
※勉強しながら投稿しているため、追加で学んだことがあれば随時投稿内容を更新します。

試験対策のまとめ

Speech Service

音声リソースを使用して音声テキスト変換とテキスト読み上げ機能を提供

音声テキスト変換

リアルタイムまたは非同期でのバッチ文字起こしで音声をテキストに変換
下記の様々なソースから音声をテキストに変換
- マイク
- オーディオファイル
- BLOBストレージ
話者ダイアライゼーションの技術を使用して、誰が何をいつ言ったのかを判断
サポートされている言語の一覧と照合して、音声の言語を識別可能
下記の場合は基本モデルでは不充分の場合がある
- 音声に周囲の雑音が含まれている場合
- 多くの業界/分野の専門用語が含まれている場合

リアルタイムの音声テキスト変換

スピーチがマイク/ファイルから認識されると音声が文字起こしされる
利用例
- ライブ会議の文字起こし/キャプション/字幕
- ダイアライゼーション
- 発音評価
- コンタクトセンターエージェントの支援など

バッチ文字起こし

ストレージ内の大量のオーディオを文字起こしする場合に使用
SAS URIでオーディオファイルを示して、非同期に文字起こしの結果を受け取り可能
利用例
- 事前に録音されたオーディオの文字起こし/キャプション/字幕
- コンタクトセンターの通話後の分析
- ダイアライゼーションなど

テキスト読み上げ

入力テキストを人間のような合成音声に変換可能
ディープニューラルネットワークを利用した人間に似た音声であるニューラル音声を使用
- 事前構築済みのニューラル音声：非常に自然ですぐに使用できる音声
- カスタムニューラル音声：ユーザーのブランドや製品に固有の音声を作成可能
音声合成マークアップ言語(SSML)を使用して下記を調節
- ピッチ
- 発音
- 読み上げ速度
- ボリュームなど

音声翻訳

音声のリアルタイムの多言語翻訳が可能
使用例
- 音声間翻訳
- 音声テキスト翻訳

言語識別

オーディオで話されている言語を識別
使用例
- 単独での使用
- 音声テキスト翻訳や音声翻訳と共に使用

話者認識

話者を検証/識別するアルゴリズムを提供
使用例
- 誰が話しているのかを特定する際に使用

発音評価

スピーチの発音を評価し、下記に関するフィードバックを話者に提供
- 音声の正確性
- 音声の流暢性
使用例
- 言語学習者による発音練習

意図認識

会話言語理解で音声テキスト変換を使用
⇒文字起こしされたユーザーの意図を汲み取る

コマンド

WAVとPCM以外の形式を使用する場合
⇒既定のオーディオ形式はWAVのため、フォーマットが必要
- 例：MP3の場合
```
AudioStreamFormat.GetCompressedFormat(AudioStreamContainerFormat.MP3)
```
音声をテキストに変換する場合
⇒ SpeechRecognizerを使用

圧縮されたオーディオ入力を使用する方法

using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

// ... omitted for brevity

var speechConfig =
    SpeechConfig.FromSubscription(
        "YourSubscriptionKey",
        "YourServiceRegion");

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
var pullStream = AudioInputStream.CreatePullStream(
    AudioStreamFormat.GetCompressedFormat(AudioStreamContainerFormat.MP3));
var audioConfig = AudioConfig.FromStreamInput(pullStream);

using var recognizer = new SpeechRecognizer(speechConfig, audioConfig);
var result = await recognizer.RecognizeOnceAsync();

var text = result.Text;

参考
- https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/overview
- https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-use-codec-compressed-audio-input-streams?tabs=windows%2Cdebian%2Cjava-android%2Cterminal&pivots=programming-language-csharp

次の試験対策のまとめ

AI-102試験対策のまとめ「QnA Maker」

学習内容をまとめたページの一覧

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up