はじめに
この記事は日本語の合成音声に関して、各ライブラリの特徴や使い方とかを書いてます。
2021年5月18日現在時点で、時間かけて調べ尽くしました。もし、ここに書いてないものがあれば、教えていただけますと幸いです。
各サービスの特徴
サービス名 | デモンストレーション | 料金 | アルゴリズム | 動作環境 | 一言コメント |
---|---|---|---|---|---|
Amazon Polly | - | 100万字あたり$4USD 高品質音声だと100万文字あたり$16USD |
neural network | API | すごく聞きやすかた |
google Text-To-Speech | - | 400文字あたり$4.00USD 高品質音声だと100万文字あたり$16USD |
neural network | API | 登録が必要 |
VOICEROID | 公式デモページへのリンク | 製品¥7,980〜 個人ライセンス¥110,000〜 法人ライセンス¥990,000〜 おそらくライセンスは買い切り |
肉声 + HMM | Windows7, 8, 10 ※仮想環境Windowsは対象外です。 |
ペッパー君がこれ GUIが使いやすい |
AquesTalk | 公式デモページへのリンク | ライセンスは¥6,380/年 | (確か)HMM | Windows Linux Android Mac iOS |
softalkの声 知らずに聞いたことありそう HMMの設定値を変えて様々な声を作れる |
OpenJTalk | 公式デモページへのリンク | オープンソースライセンス | HMM | Windows Linux ラズパイに導入実績あり |
無料で使える |
使い方
Amazon Polly
公式のリファレンス
SDKが既にあり、これを活用するようです。他にも調べたらたくさん資料が出たので割愛します。
google Text-To-Speech
公式のリファレンス
SDKが既にあり、これを活用するようです。他にも調べたらたくさん資料が出たので割愛します。
VOICEROID
筆者がGUIしか触ってないため説明を省略します。
調べた限りですと、環境が整っておらず大変そうです。
VOICEROID2で自動読み上げ&保存させてみた2
AquesTalk
公式のダウンロードページの中のAqKanji2KoeとAquesTalk10を使います。
AqKanji2Koeは入力文章を加工し、品詞分解したり、アクセント記号の追加をします。
AquesTalk10は前述のAqKanji2Koeで作成した文章から音声を作成します。
公式のダウンロードページから開発環境に合わせてソフトをダウンロードし、ダウンロードボタンの横にあるマニュアルを読みながらの開発になります。
Linuxで開発していたのですが、公式マニュアルに追加して、以下exportが必要でした。
# !/bin/sh
$ export CPATH=$CPATH:~/aqtk10_lnx/lib64/:~/aqk2k_lnx/lib64/
OpenJTalk
デモページのGetting Open JTalkからのダウンロードになります。
環境構築は調べたら記事がたくさん出て来たため省略します。覚えている限りでは苦戦しなかったです。
環境構築し直す機会があれば追記します。
まとめ
合成音声のアルゴリズム思想は今も昔も変わらず、現実の音波とPC上の特徴量のマッピングをすることが主のようです。そのマッピングをブラックボックス化するアルゴリズムがHMMかneural networkかで流行が変化した。
最近は高品質で安価なものがAPIになっていました。
非オンライン環境での選択肢はそこまで多くないので、お金との相談だと思います。