はじめに
5/24~26に行われたMicrosoft Build 2022に参加しました。
そこで気になったものをとりあえず触ってみます。
第一弾はAzure Cognitive ServicesのSpeech Servicesの中のカスタムニューラル音声です。
(気が向くと第二弾も投稿されます)
用意するもの
- Azureサブスクリプション
カスタムニューラル音声とは
アプリケーション用に独自にカスタマイズした合成音声を作成できるようにするテキスト読み上げ機能です。 カスタム ニューラル音声を使用すると、オーディオ サンプルをトレーニング データとして提供することで、非常に自然な音声を作成できます。
最近テレビとかでも見る、自分の声を学習させると、自分の声でナレーションとかしてくれるってやつですね。
やり方
-
Azureから音声サービスのリソースを作成します。(Speech Studioからもリソースは作成できます。)
-
リソースの設定をしていきます。ここで注意。カスタムニューラル音声を試すには価格レベルをS0レベルで、リージョンを米国東部、東南アジア、英国南部のいずれかに設定する必要があります。
-
作成できたらSpeech Studioにアクセス。
-
現在のリソースを作成した音声サービスのリソースに切り替えます。
-
プロジェクトを作成。今回はお試しなのでLiteを選択。(Proは使用するために申請が必要なため、気軽に試せないorz…)
-
とっても悲しいのですが、liteでは日本語はまだ対応してない様子…。なので英語でチャレンジ。(Proにすれば日本語も選択できます。)
-
作成したプロジェクトを選択し、例文を録音していきます。英語の発音がひどいと怒られます。英語はまったくできないため、たくさん怒られました。ちなみに発音が違う場所は黄色くなります。ので、お手本の発音を聞いて再度試します。若干英語の授業のような気持ちになりました。
-
最低20個の録音が終了すると、トレーニングができるようになります。本当は50個ほどのデータがあるといいようなのですが、お試しなので今回は20個で一度トレーニング。トレーニングには0.8時間かかると言われたので、その間に飼い犬と一緒におやつタイム🐶
実際のサンプル音声
私のTwitterから聞けます。
MS Build2022を見ていて気になったSpeech Services内のCustom Voiceを試してみました。なかなかの出来でびっくり!#MSBuild #Azure pic.twitter.com/7UMOa1N9UA
— usomaru (@usomaru26) May 28, 2022
読ませた英文はこちら
To deploy your voice model and use it in your business applications. you must get the full access to Custom Neural Voice and the explicit consent from your voice talent.
想像以上の出来でびっくりしました。そして楽しい!
おわりに
20個の例文を読むだけでなかなかの出来の音声ができてしまいました!
Buildを見ていた時も驚いたのですが、これはすごい!そして楽しい!
はやくliteの方も日本語がGAしてほしいですね。
参考
MSのドキュメント:カスタムニューラル音声とは
MSの資料:Try out Custom Neural Voice in 5 minutes with a Lite project