AI-102 学習メモ (7) : Azure AI 音声を使用して音声を処理する

Last updated at 2025-02-12Posted at 2025-02-12

はじめに

この投稿は AI-102: Microsoft Azure AI エンジニアの学習をした内容のメモです。

投稿の一覧は以下のリンク先にあります。

前の投稿

Azure AI 音声を使用して音声を処理する

以下のような Azure AI 音声サービスを実際に Azure Speech Studio から利用してみます。
※ 新しい Azure AI Foundryからも同様に利用できます。

名前	説明
音声からテキスト	リアルタイムまたは非同期バッチ処理で音声をテキストに文字起こし
テキスト読み上げ	テキストを自然な人間のような音声で読み上げ

テキスト読み上げ

Speech Stdio から [テキスト読み上げ] - [音声ギャラリー] を選択します。

[言語] のプルダウンで「日本語」を選択します。日本語に対応している音声が表示されます。同じ音声でも複数の話し方のスタイルが用意されています。

[試してみる] からテキストを入力して任意のテキストを読み上げることができます。

音声テキスト変換

[音声テキスト変換] - [リアルタイム音声テキスト変換] を選択します。

今回は以下のページ公開されているサンプルの音声データを使用させていただき試しました。

プルダウンから言語を「日本語」に設定し、サンプルのオーディオファイルをアップロードします。右側に音声がテキストに変換された結果が表示されます。

語句リスト に専門用語などの単語を登録しておくと、テキスト変換の精度を向上させることができます。

音声合成マークアップ言語 (SSML)

SSML を利用すると、音声の読み上げ方法を XML 形式で制御することができます。
読み上げ方法は <voice> 要素で指定します。

style 属性：陽気、落ち着きなど、音声の感情表現方法を指定します
- assistant
- calm
- chat
- angry
- sad
- ...
role 属性：男性、女性、声の高さなど、音声の年齢と性別を指定します
- Girl
- Boy
- YoungAdultFemale
- YoungAdultMale
- ...

SSML の例

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="ja-JP">
    <voice style="assistant" role="YoungAdultMale">
        ここに読み上げるテキストを記載します。
    </voice>
</speak>

次の投稿

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up