More than 3 years have passed since last update.

合成音声ライブラリの特徴と、使い方の紹介

Posted at 2021-05-19

はじめに

この記事は日本語の合成音声に関して、各ライブラリの特徴や使い方とかを書いてます。
2021年5月18日現在時点で、時間かけて調べ尽くしました。もし、ここに書いてないものがあれば、教えていただけますと幸いです。

サービス名	デモンストレーション	料金	アルゴリズム	動作環境	一言コメント
Amazon Polly	-	100万字あたり$4USD 高品質音声だと100万文字あたり$16USD	neural network	API	すごく聞きやすかた
google Text-To-Speech	-	400文字あたり$4.00USD 高品質音声だと100万文字あたり$16USD	neural network	API	登録が必要
VOICEROID	公式デモページへのリンク	製品¥7,980〜個人ライセンス¥110,000〜法人ライセンス¥990,000〜おそらくライセンスは買い切り	肉声 + HMM	Windows7, 8, 10 ※仮想環境Windowsは対象外です。	ペッパー君がこれ GUIが使いやすい
AquesTalk	公式デモページへのリンク	ライセンスは¥6,380/年	（確か）HMM	Windows Linux Android Mac iOS	softalkの声知らずに聞いたことありそう HMMの設定値を変えて様々な声を作れる
OpenJTalk	公式デモページへのリンク	オープンソースライセンス	HMM	Windows Linux ラズパイに導入実績あり	無料で使える

公式のリファレンス
SDKが既にあり、これを活用するようです。他にも調べたらたくさん資料が出たので割愛します。

公式のリファレンス
SDKが既にあり、これを活用するようです。他にも調べたらたくさん資料が出たので割愛します。

筆者がGUIしか触ってないため説明を省略します。
調べた限りですと、環境が整っておらず大変そうです。
VOICEROID2で自動読み上げ&保存させてみた２

公式のダウンロードページの中のAqKanji2KoeとAquesTalk10を使います。
AqKanji2Koeは入力文章を加工し、品詞分解したり、アクセント記号の追加をします。
AquesTalk10は前述のAqKanji2Koeで作成した文章から音声を作成します。

公式のダウンロードページから開発環境に合わせてソフトをダウンロードし、ダウンロードボタンの横にあるマニュアルを読みながらの開発になります。
Linuxで開発していたのですが、公式マニュアルに追加して、以下exportが必要でした。

# !/bin/sh
$ export CPATH=$CPATH:~/aqtk10_lnx/lib64/:~/aqk2k_lnx/lib64/

デモページのGetting Open JTalkからのダウンロードになります。
環境構築は調べたら記事がたくさん出て来たため省略します。覚えている限りでは苦戦しなかったです。
環境構築し直す機会があれば追記します。

合成音声のアルゴリズム思想は今も昔も変わらず、現実の音波とPC上の特徴量のマッピングをすることが主のようです。そのマッピングをブラックボックス化するアルゴリズムがHMMかneural networkかで流行が変化した。

最近は高品質で安価なものがAPIになっていました。
非オンライン環境での選択肢はそこまで多くないので、お金との相談だと思います。