■はじめに
・音声認識により操作が色々と出来るようになって来ているのに伴い、音声合成による出力も注目が集まって来ている。一昔前の機械的な音声に比べかなり人の音声に近づいて来ている。
・今回、”HOYA Voice Text Web API 詳細はこちら” を使ってWEBサービスの音声合成(無料)を使ってみたところ思った以上に簡単に実現できたので忘れないうちに備忘録として残す
※この記載では、APIを叩いて特定のテキスト文章を渡し、リターンとして音声ファイルをダウンロード。再生が正常にできる事を確認
▲初投稿:2018-05-14
■用意したもの
・HOYA Voice Text Web APIキー・・・音声合成クラウドサービスのAPIキーを入手 詳細はこちら
!!!注意事項!!!
・無料版で作成した音声データの商用利用、二次利用及び配布する行為は禁止されております。利用規約をご確認の上、本サービスをご利用ください
■やってみよう!
■■とりあえず実行してみよう
・実際に音声合成クラウドサービスにリクエストを送ってみましょう。ここでは"curl"というコマンドラインツールを使います。別に他のツールでも構いませんので、自分の使い易いツールで実行してみてください
[例:女の子の声で”おはようございます”]
curl "https://api.voicetext.jp/v1/tts" -o "test.wav" -u "YOUR_API_KEY:" -d "text=おはようございます" -d "speaker=hikari"
※YOUR_API_KEY のところを入手したAPIキーに書き換えて下さい。
例)APIキーが 12345 だった場合
curl "https://api.voicetext.jp/v1/tts" -o "test.wav" -u "12345:" -d "text=おはようございます" -d "speaker=hikari"
成功すると、音声ファイル(”test.wav”)がダウンロードされますので、再生してみましょう。
■■パラメータ説明
・”Voice Text Web”では、いくつかのパラメータが用意されており、それを変える事により色々な趣向な音声データを作ることが出来ます。詳細はこちら
パラメータ | 説明 | 制限 | 初期値 |
---|---|---|---|
text | 合成するテキスト。エンコーディングは UTF-8 | 必須 | Unicode で 200 文字以内 |
speaker | 話者名。下記の中のいずれかを指定します(全て日本語) | 必須 | |
show(男性) | |||
haruka(女性) | |||
hikari(女性) | |||
takeru(男性) | |||
santa(サンタ) | |||
bear(凶暴なクマ) | |||
format | 音声ファイルフォーマット。以下のいずれかを指定します | wav | |
wav(圧縮無し) | |||
ogg(Ogg Vorbisフォーマットでの圧縮) | |||
mp3(MP3フォーマットでの圧縮) | |||
emotion | 感情カテゴリの指定 話者 haruka、hikari、takeru、santa、bear にのみ使用できます。 以下のいずれかを指定します | ||
happiness 喜 | |||
anger 怒 | |||
sadness 悲 | |||
emotion_level | 感情レベルの指定。1〜4を指定できます。数値が大きいほど感情が強くなります | 2 | |
pitch | 音の高低を数値で指定します。値が小さいほど低い音になります | 50から200(%)まで | 100(%) |
speed | 話す速度を数値で指定します。値が小さいほど遅い話し方になります | 50から400(%)まで | 100(%) |
volume | 音量を数値で指定します。値が小さいほど小さい音になります | 50から200(%)まで | 100(%) |
■■感情設定を使って実行してみよう
[例:元気な女の子の声で”おはようございます”]
curl "https://api.voicetext.jp/v1/tts" -o "test20.mp3" -u "YOUR_API_KEY:" -d "text=おはようございます" -d "speaker=haruka" -d "emotion=happiness" -d "emotion_level=4" -d "pitch=110" -d "speed=125"
[例:気迫がこもった感じで”バナージリンクス。ユニコーンガンダム行きまぁーす!”]
curl "https://api.voicetext.jp/v1/tts" -o "test21.mp3" -u "YOUR_API_KEY:" -d "text=バナージリンクス。ユニコーンガンダム行きまぁーす!" -d "speaker=takeru" -d "format=mp3" -d "emotion=anger" -d "emotion_level=4" -d "pitch=125" -d "speed=135" -d "volume=180"
[例:ドスが効いたヤ●●系のプーさんで”蜂蜜食べたいなぁ”]
curl "https://api.voicetext.jp/v1/tts" -o "test22.wav" -u "YOUR_API_KEY:" -d "text=蜂蜜食べたいなぁ" -d "speaker=bear" -d "emotion=anger" -d "emotion_level=4" -d "pitch=80" -d "speed=80"
・簡単に変えた音声を確認出来ますので、色々と試してみて下さい!
■参考
・HOYA Voice Text Web API ・・・ こちら
・Qiita(KSxRDevelop) ・・・ その他の情報はこちら