3月27日に発表された「Cloud Text-to-Speech」を使って音声合成をしてみたのでメモ.
https://japan.zdnet.com/article/35116787/
Googleは米国時間3月27日「Google Cloud Platform」(GCP)上で動作する、テキストの音声合成サービス「Cloud Text-to-Speech」について発表した。このサービスは、傘下のDeepMindが生の音声を分析するために開発したモデルを利用している。
クイックスタート
https://cloud.google.com/text-to-speech/docs/quickstart
これの通り進める。
まずGCPにログインし、text-to-speechの課金を有効にする。
(アカウントを持っていない人はこの時つくる。)
fieldsの入力欄の右にある「Use fields editor」というリンクをクリックすると、ポップアップが出るので、"audioContent"にチェックを入れて閉じる。
Request bodyは、ドキュメントをみると
voice、input、audioConfigの3つは必要っぽい。
カッコの中をクリックすると、入力補助が出てくるので、それを頼りに入力してく。

手探りで以下のように入力。
{
"voice": {
"languageCode": "ja"
},
"input": {
"text": "勇者しとっぷよ、よくぞ無事で戻ってきた。しとっぷが次のレベルになるには、あと300ポイントの経験が必要じゃ。つらい旅だろうが挫けぬようにな。"
},
"audioConfig": {
"audioEncoding": "mp3"
}
}
Executeをクリックすると、画面の下のほうに結果が表示され、
Responseの欄に生成されたボイスがBase64フォーマットでだらーーーと表示される。
{
"audioContent":"〜ここの中にbase64変換されたボイスが入っている〜"
}
base64変換されたボイスだけをコピーして、メモツールにペーストしてファイルとして保存する。
上の例だと、
"〜ここの中にbase64変換されたボイスが入っている〜"のところの""の中。
コマンドラインツールでエンコーディングする
参考)https://cloud.google.com/text-to-speech/docs/base64-decoding
base64 voice.64.txt -D > dest_audio_file.mp3
ファイルをダブルクリックして、iTunesなどでセリフがちゃんと音声化されてることを確認する。
↓
GCPのクラウドストレージにアップする
「一般公開で共有する 」にチェックを入れる
クラウドストレージで発行されたURLを、「新規シークレットウィンドウ」で開いてみて、ちゃんと再生されればOK!