More than 5 years have passed since last update.

Google Cloud Text-to-Speech でドラクエのセリフを喋らせて、mp3にしてGCPにアップロードするまで

Posted at 2018-06-08

3月27日に発表された「Cloud Text-to-Speech」を使って音声合成をしてみたのでメモ.
https://japan.zdnet.com/article/35116787/

　Googleは米国時間3月27日「Google Cloud Platform」（GCP）上で動作する、テキストの音声合成サービス「Cloud Text-to-Speech」について発表した。このサービスは、傘下のDeepMindが生の音声を分析するために開発したモデルを利用している。

クイックスタート

https://cloud.google.com/text-to-speech/docs/quickstart
これの通り進める。
まずGCPにログインし、text-to-speechの課金を有効にする。
（アカウントを持っていない人はこの時つくる。）

fieldsの入力欄の右にある「Use fields editor」というリンクをクリックすると、ポップアップが出るので、"audioContent"にチェックを入れて閉じる。

Request bodyは、ドキュメントをみると
voice、input、audioConfigの3つは必要っぽい。
カッコの中をクリックすると、入力補助が出てくるので、それを頼りに入力してく。

手探りで以下のように入力。

{
 "voice": {
  "languageCode": "ja"
 },
 "input": {
  "text": "勇者しとっぷよ、よくぞ無事で戻ってきた。しとっぷが次のレベルになるには、あと300ポイントの経験が必要じゃ。つらい旅だろうが挫けぬようにな。"
 },
 "audioConfig": {
  "audioEncoding": "mp3"
 }
}

Executeをクリックすると、画面の下のほうに結果が表示され、
Responseの欄に生成されたボイスがBase64フォーマットでだらーーーと表示される。

{
"audioContent":"〜ここの中にbase64変換されたボイスが入っている〜"
}

base64変換されたボイスだけをコピーして、メモツールにペーストしてファイルとして保存する。
上の例だと、
"〜ここの中にbase64変換されたボイスが入っている〜"のところの""の中。

コマンドラインツールでエンコーディングする
参考）https://cloud.google.com/text-to-speech/docs/base64-decoding

 base64 voice.64.txt -D > dest_audio_file.mp3

ファイルをダブルクリックして、iTunesなどでセリフがちゃんと音声化されてることを確認する。

↓
GCPのクラウドストレージにアップする
「一般公開で共有する」にチェックを入れる

クラウドストレージで発行されたURLを、「新規シークレットウィンドウ」で開いてみて、ちゃんと再生されればOK！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up