More than 5 years have passed since last update.

■Voice Text Web API を使って音声合成をしてみた件

Last updated at 2019-12-26Posted at 2018-05-16

■はじめに

・音声認識により操作が色々と出来るようになって来ているのに伴い、音声合成による出力も注目が集まって来ている。一昔前の機械的な音声に比べかなり人の音声に近づいて来ている。
・今回、”HOYA Voice Text Web API　詳細はこちら”　を使ってWEBサービスの音声合成（無料）を使ってみたところ思った以上に簡単に実現できたので忘れないうちに備忘録として残す
※この記載では、APIを叩いて特定のテキスト文章を渡し、リターンとして音声ファイルをダウンロード。再生が正常にできる事を確認

▲初投稿：2018-05-14

■用意したもの

・HOYA Voice Text Web APIキー・・・音声合成クラウドサービスのAPIキーを入手詳細はこちら　

！！！注意事項！！！
・無料版で作成した音声データの商用利用、二次利用及び配布する行為は禁止されております。利用規約をご確認の上、本サービスをご利用ください

■やってみよう！

■■とりあえず実行してみよう

・実際に音声合成クラウドサービスにリクエストを送ってみましょう。ここでは"curl"というコマンドラインツールを使います。別に他のツールでも構いませんので、自分の使い易いツールで実行してみてください

［例：女の子の声で”おはようございます”］

curl "https://api.voicetext.jp/v1/tts" -o "test.wav" -u "YOUR_API_KEY:" -d "text=おはようございます" -d "speaker=hikari"

※YOUR_API_KEY　のところを入手したAPIキーに書き換えて下さい。
　例）APIキーが 12345 だった場合

curl "https://api.voicetext.jp/v1/tts" -o "test.wav" -u "12345:" -d "text=おはようございます" -d "speaker=hikari"

成功すると、音声ファイル（”test.wav”）がダウンロードされますので、再生してみましょう。

■■パラメータ説明

・”Voice Text Web”では、いくつかのパラメータが用意されており、それを変える事により色々な趣向な音声データを作ることが出来ます。詳細はこちら　

パラメータ	説明	制限	初期値
text	合成するテキスト。エンコーディングは UTF-8	必須	Unicode で 200 文字以内
speaker	話者名。下記の中のいずれかを指定します（全て日本語）	必須
	show(男性)
	haruka(女性)
	hikari(女性)
	takeru(男性)
	santa(サンタ)
	bear(凶暴なクマ)
format	音声ファイルフォーマット。以下のいずれかを指定します		wav
	wav(圧縮無し)
	ogg(Ogg Vorbisフォーマットでの圧縮)
	mp3(MP3フォーマットでの圧縮)
emotion	感情カテゴリの指定話者 haruka、hikari、takeru、santa、bear にのみ使用できます。以下のいずれかを指定します
	happiness 喜
	anger 怒
	sadness 悲
emotion_level	感情レベルの指定。1〜4を指定できます。数値が大きいほど感情が強くなります		2
pitch	音の高低を数値で指定します。値が小さいほど低い音になります	50から200(%)まで	100(%)
speed	話す速度を数値で指定します。値が小さいほど遅い話し方になります	50から400(%)まで	100(%)
volume	音量を数値で指定します。値が小さいほど小さい音になります	50から200(%)まで	100(%)

■■感情設定を使って実行してみよう

［例：元気な女の子の声で”おはようございます”］

curl "https://api.voicetext.jp/v1/tts" -o "test20.mp3" -u "YOUR_API_KEY:" -d "text=おはようございます" -d "speaker=haruka" -d "emotion=happiness" -d "emotion_level=4" -d "pitch=110" -d "speed=125"

［例：気迫がこもった感じで”バナージリンクス。ユニコーンガンダム行きまぁーす！”］

curl "https://api.voicetext.jp/v1/tts" -o "test21.mp3" -u "YOUR_API_KEY:" -d "text=バナージリンクス。ユニコーンガンダム行きまぁーす！" -d "speaker=takeru" -d "format=mp3" -d "emotion=anger" -d "emotion_level=4" -d "pitch=125" -d "speed=135" -d "volume=180"

［例：ドスが効いたヤ●●系のプーさんで”蜂蜜食べたいなぁ”］

curl "https://api.voicetext.jp/v1/tts" -o "test22.wav" -u "YOUR_API_KEY:" -d "text=蜂蜜食べたいなぁ" -d "speaker=bear" -d "emotion=anger" -d "emotion_level=4" -d "pitch=80" -d "speed=80"

・簡単に変えた音声を確認出来ますので、色々と試してみて下さい！

■参考

・HOYA Voice Text Web API　・・・　こちら　
・Qiita(KSxRDevelop)　・・・　その他の情報はこちら　

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up