ジャーニーマン( @beajourneyman )です。長いの"ジャニ"と呼ばれています。
この記事は セゾンテクノロジー Advent Calendar 2024 シーズン3、2日目の記事です。1日目も書いたので2日連続です。
上記では、日本語を扱う難しさを解説しプロダクションで必要になる合成音声チューニングについてまとめました。こちらでは、2023/02/08の待望の日本語女性ニューラルTTS(text-to-speech)音声の一般提供開始から、日本に関連が深いものを中心この2年間のアップデートをふりかえり、生成AI時代の音声合成について考えます。
2023/02/08:待望の日本語ニューラルTTSの音声 Kazuha,Tomoko 一般提供開始
お客様はもちろん、開発サイドとしても待ちに待ったリリースでした。月毎に実施している定例会の場でデモを準備し、すぐに聞いていただきました。お客様に提供しているIVRの仕組みでは、スタンダート音声では品質にご満足いただけず、お客様がナレーターさんなどに読み上げ音声の収録を依頼して、音声ファイルとして納品いただく案件対応でした。
Kazuha,Tomoko の登場で、生成音声がプロダクションでも利用できるようになりました。音声合成チューニング※は必要でしたが、自然で読み上げのイントネーションもご納得いただける品質を実現できるようになりました。お客様は音声準備の手間から解放されたました。非常に大きな変化でした。
※音声合成チューニングについては、巻頭にも掲載している当方ブログ「Amazon Polly 音声合成チューニング入門」で解説しておりますので、併せてご覧ください。
2023/04/05:Amazon Polly が AWS アジアパシフィック (大阪) リージョンでフルサポートを提供
リージョンの縛りがあるケースでは、必須のアップデートだったかと思います。現在も東京と大阪リージョンのエンジン、音声の品揃えは同じです。
日本語も含めてですがしばらく、いくつかの言語のニューラルTTS音声のリリースが続きます。そして、新たなエンジンの一般提供が開始されました。ロングフォームです。
2023/11/16:AWS が 3 人の表現力豊かなアメリカ英語の声を備えた長文形式エンジンの提供を開始
「プレミアム製品枠」「最先端の深層学習 TTS テクノロジーを使用して Polly ニューラル音声が再構築」「表現力が豊かで感情表現が上手な声が生み出された」と、期待が高まる言葉が多数並んでいました。
2024/03/08:Amazon Polly の 3 つの合成音声 (英語) に対応した新生成エンジン
半年の期間を経て、ついに生成エンジン(Generative Engine)誕生のニュースが飛び込んできました。
ここには重要なメッセージが多数含まれています。該当箇所を引用します。
文脈に応じた韻律や、間の取り方、スペル、方言特性、外来語の発音などを高い精度で表現します。生成型の合成音声は、感情表現に富み、明快で口語的であるため、人間の声に驚くほど似ています。
太字部分には、音声合成チューニングで課題だった全てについて、"高い精度で表現する”と書かれています。つまり、音声合成チューニングが不要、と期待できる表現なのです。これは本当に衝撃でした。
新エンジンに日本語音声のリリースはありませんので、英語版のデモをご用意しました。ロングフォーム、生成に加え、比較のためにニューラルも用意しました。全て英語女性音声の Ruth です。与えているテキストと併せてお聞きください。
Congratulations on the co-hosted Cloud-Ohenro by JAWS-UG and SORACOM-UG!
"UG"を"ユージー"と発音できていなかったので、表記を少しだけ変えてみました(こちらもチューニング技法の1つです)。
Congratulations on the co-hosted Cloud-Ohenro by JAWS-U-G and SORACOM-U-G!
ご覧の通り、音声合成マークアップ言語(SSML)ではチューニングしていません。与えるテキストの表記をわずかに変えた、"-UG"を"-U-G"にしただけです。滑らかかつ聞き取りやすい抑揚があり、とても大きな可能性を感じます。
生成AI時代の音声合成
以下は Amazon Bedrock で Claude にとある質問を投げて、受け取った回答です。育ちが関東なので評価は避けますが、日本語の標準語ではない特徴を持った回答が返ってきています。上記、リリースにも"方言特性"の言葉がありました。
コレは何を意味するのでしょうか? テキスト読み上げは大規模言語モデル(LLM)との親和性が極めて高いと考えています。すでに部分的には Polly と Bedrock の統合は始まっています。そして、生成AI時代の音声合成は、そう遠くない将来、チューニング不要なほど自然で、お国言葉を話せるようになる、そう感じられます。
テキスト読み上げ(TTS)は、欧米の言語を皮切りに静かに"不気味の谷"を越えている段階にいると思っています。来るべき日本語の一般提供開始に向けて、Bedrock を含むAWSコミュニケーション系サービスに引き続き注目していきたいと思います。
以上です。