More than 1 year has passed since last update.

AI-102試験対策のまとめ「カスタムニューラル音声のトレーニングデータの種類」

Last updated at 2023-12-14Posted at 2023-12-13

はじめに

Azure AI Engineer Associate(AI-102)取得に向けた勉強でまとめた内容を本記事では投稿しています。
試験範囲の内容を私が勉強していく中で、
・忘れてしまっていた内容
・他の知識と絡めて理解した方が良い内容
・Microsoft Learnの読解に苦戦した内容
などをできるだけ分かりやすく簡潔にまとめることを意識しています。
Azureの勉強を一から始め、AI-102取得を目指している方の参考になれば幸いです。
※本記事の内容が必ず試験に出るわけではないこと、ご注意ください
※勉強しながら投稿しているため、追加で学んだことがあれば随時投稿内容を更新します。

試験対策のまとめ

カスタムニューラル音声のトレーニングデータの種類

カスタムニューラル音声(CNV)

アプリケーション用に独自にカスタマイズした合成音声を作成できるようにするテキスト読み上げ機能
人間の発話サンプルをトレーニングデータとして提供することで、ブランドやキャラクターの音声を非常に自然な音声で作成可能
作成するにはSpeech Studioを使用して、下記の流れを実施
1. 下記を一つのデータセットにしてzipファイルでアップロード
  - 録音された音声
  - 関連する文字起こしを含んだテキストファイル
2. モデルのトレーニング
3. 音声をカスタムエンドポイントにデプロイ

トレーニングデータ型

それぞれのデータ型がモデル作成時にどのように使用されるかは下記の通り

データ型	音声	トランスクリプト	使用する場合	必要な追加処理
個々の発話 + 一致するトランスクリプト	・.wav ・15秒未満	.txt	音声が個々の発話に分かれており、一致するトランスクリプトもある場合	トレーニングのみ
長い音声 + トランスクリプト	・.wavまたは.mp3 ・20秒以上・最大1000個	.txt	トランスクリプトはあるが、音声が個々の発話にセグメント化されていない場合	・(バッチ文字起こしによる)セグメント化・(必要に応じて)オーディオ形式の変換
オーディオのみ (プレビュー)	・.wavまたは.mp3 ・最大1000個	なし	トランスクリプトが無く音声のみの場合	・(バッチ文字起こしによる)セグメント化・トランスクリプトの生成・(必要に応じて)オーディオ形式の変換

参考
- https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-custom-voice-training-data

次の試験対策のまとめ

AI-102試験対策のまとめ「チャットボットのデバッグ」

学習内容をまとめたページの一覧

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up