gcp
TextToSpeech

Google Cloud Text-to-Speech でドラクエのセリフを喋らせて、mp3にしてGCPにアップロードするまで

3月27日に発表された「Cloud Text-to-Speech」を使って音声合成をしてみたのでメモ.

https://japan.zdnet.com/article/35116787/

 Googleは米国時間3月27日「Google Cloud Platform」(GCP)上で動作する、テキストの音声合成サービス「Cloud Text-to-Speech」について発表した。このサービスは、傘下のDeepMindが生の音声を分析するために開発したモデルを利用している。


クイックスタート

https://cloud.google.com/text-to-speech/docs/quickstart

これの通り進める。

まずGCPにログインし、text-to-speechの課金を有効にする。

(アカウントを持っていない人はこの時つくる。)

fieldsの入力欄の右にある「Use fields editor」というリンクをクリックすると、ポップアップが出るので、"audioContent"にチェックを入れて閉じる。

Request bodyは、ドキュメントをみると

voice、input、audioConfigの3つは必要っぽい。

カッコの中をクリックすると、入力補助が出てくるので、それを頼りに入力してく。

手探りで以下のように入力。

{

"voice": {
"languageCode": "ja"
},
"input": {
"text": "勇者しとっぷよ、よくぞ無事で戻ってきた。しとっぷが次のレベルになるには、あと300ポイントの経験が必要じゃ。つらい旅だろうが挫けぬようにな。"
},
"audioConfig": {
"audioEncoding": "mp3"
}
}

スクリーンショット 2018-05-25 1.56.31.png

Executeをクリックすると、画面の下のほうに結果が表示され、

Responseの欄に生成されたボイスがBase64フォーマットでだらーーーと表示される。

スクリーンショット 2018-05-25 2.01.46.png

{

"audioContent":"〜ここの中にbase64変換されたボイスが入っている〜"
}

base64変換されたボイスだけをコピーして、メモツールにペーストしてファイルとして保存する。

上の例だと、

"〜ここの中にbase64変換されたボイスが入っている〜"のところの""の中。

[undefined]()

コマンドラインツールでエンコーディングする

参考)https://cloud.google.com/text-to-speech/docs/base64-decoding



base64 voice.64.txt -D > dest_audio_file.mp3

ファイルをダブルクリックして、iTunesなどでセリフがちゃんと音声化されてることを確認する。



GCPのクラウドストレージにアップする

「一般公開で共有する 」にチェックを入れる

クラウドストレージで発行されたURLを、「新規シークレットウィンドウ」で開いてみて、ちゃんと再生されればOK!