LoginSignup
3
2

More than 1 year has passed since last update.

はじめに

この記事は日本語の合成音声に関して、各ライブラリの特徴や使い方とかを書いてます。
2021年5月18日現在時点で、時間かけて調べ尽くしました。もし、ここに書いてないものがあれば、教えていただけますと幸いです。

各サービスの特徴

サービス名 デモンストレーション 料金 アルゴリズム 動作環境 一言コメント
Amazon Polly - 100万字あたり\$4USD
高品質音声だと100万文字あたり\$16USD
neural network API すごく聞きやすかた
google Text-To-Speech - 400文字あたり\$4.00USD
高品質音声だと100万文字あたり\$16USD
neural network API 登録が必要
VOICEROID 公式デモページへのリンク 製品¥7,980〜
個人ライセンス¥110,000〜
法人ライセンス¥990,000〜
おそらくライセンスは買い切り
肉声 + HMM Windows7, 8, 10
※仮想環境Windowsは対象外です。
ペッパー君がこれ
GUIが使いやすい
AquesTalk 公式デモページへのリンク ライセンスは¥6,380/年 (確か)HMM Windows
Linux
Android
Mac
iOS
softalkの声
知らずに聞いたことありそう
HMMの設定値を変えて様々な声を作れる
OpenJTalk 公式デモページへのリンク オープンソースライセンス HMM Windows
Linux
ラズパイに導入実績あり
無料で使える

使い方

Amazon Polly

公式のリファレンス
SDKが既にあり、これを活用するようです。他にも調べたらたくさん資料が出たので割愛します。

google Text-To-Speech

公式のリファレンス
SDKが既にあり、これを活用するようです。他にも調べたらたくさん資料が出たので割愛します。

VOICEROID

筆者がGUIしか触ってないため説明を省略します。
調べた限りですと、環境が整っておらず大変そうです。
VOICEROID2で自動読み上げ&保存させてみた2

AquesTalk

公式のダウンロードページの中のAqKanji2KoeとAquesTalk10を使います。
AqKanji2Koeは入力文章を加工し、品詞分解したり、アクセント記号の追加をします。
AquesTalk10は前述のAqKanji2Koeで作成した文章から音声を作成します。

公式のダウンロードページから開発環境に合わせてソフトをダウンロードし、ダウンロードボタンの横にあるマニュアルを読みながらの開発になります。
Linuxで開発していたのですが、公式マニュアルに追加して、以下exportが必要でした。

# !/bin/sh
$ export CPATH=$CPATH:~/aqtk10_lnx/lib64/:~/aqk2k_lnx/lib64/

OpenJTalk

デモページのGetting Open JTalkからのダウンロードになります。
環境構築は調べたら記事がたくさん出て来たため省略します。覚えている限りでは苦戦しなかったです。
環境構築し直す機会があれば追記します。

まとめ

合成音声のアルゴリズム思想は今も昔も変わらず、現実の音波とPC上の特徴量のマッピングをすることが主のようです。そのマッピングをブラックボックス化するアルゴリズムがHMMかneural networkかで流行が変化した。

最近は高品質で安価なものがAPIになっていました。
非オンライン環境での選択肢はそこまで多くないので、お金との相談だと思います。

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2