「VOICEVOX」「COEIROINK」「TALQu」の3つに関して。
AI合成音声、テキスト読み上げソフト、など呼ばれるもの。どれもフリーソフト。リリース時期が2021年末〜2022年にかけて。
=⚠︎全体的に編集途中...=
🟣AI音声合成ソフト
前書き
※この記事は 既出「音声合成サービス 一覧比較 =WEB APIがメイン=」(フリーソフト関連の追記あり)からフリーソフト関連に関しての部分を抜き出したものでもあります
※onlineで(ブラウザ上で)動くサービスに関しては別途下記ページをどうぞ
・AI合成音声サービス「CoeFont」
・AI合成音声サービス 一覧比較 =WEB APIがメイン=
※この記事は2022年08月現在の情報です
※本稿の情報は投稿日を過ぎるにつれ古くなり、あるいはサービスの改善やupdateに伴い、実際とはちがってくるかもしれません
この記事上での略語
- CV...キャラクターボイス 、「音声モデル」や 「音声ライブラリ」と同義.
・「Character Voice」 - UI...操作画面. 入力欄やボタンなどのこと
・ 「User Interface」、この記事では「Graphic User Interface」も含む - TTS:文章から自然な音声を生成する分野(や技術やサービス).
・「Text-to-Speech」=「テキスト読み上げ」
・テキストから音声を作り出す, 任意の文章を任意の声色で喋らせる
・入力がテキストで出力が音声(MP3/WAV/OGGなど) - その他
- DL... ダウンロード 「Down Loard」
- Win... ウィンドウズ (OSのこと) 「Windows」
この記事上の対象ソフト
- 無料ソフトのみ (ダウンロードしてインストールして使うやつ)
- 対応OS: 各ソフトによる (各ソフトの対応OSを参照)
概要(表)
TTS | 対応OS | 初期CV数 | 自作CV |
---|---|---|---|
VOICEVOX |
Win / Mac / Linux ※WinはCPU版、GPU版 |
12 ※1 | 未対応? |
COEIROINK |
Win (Win7 非対応) / Mac | 1 ※2 | 可能 |
※3 TALQu |
Winのみ (CPU版、GPU版) | =未確認= ※3 | 可能 |
補足Info
※1…CVによっては複数スタイル(4〜5)
※2…ダウンロード時は1つのCV1つのスタイル「つくよみちゃん(れいせい)」のみ
※3…Win環境ないので未確認 〈TALQu のicon画像募集: 解像度144、64x64(px)、urlの場所をお知らせ下さい〉
基本情報
書式は以下:
ソフト名称 《ヨミ》
HPアドレス or 配布ページ
ソフト公式Twitter(あれば)
"(キャッチフレーズ、引用文など)”
リリース・サービス開始時期
対応OS
*備考など
■VOICEVOX 《ボイスボックス》
・«HP» https://voicevox.hiroshiba.jp/
・«pixiveFANBOX» https://hiho.fanbox.cc/
・«Twitter» https://twitter.com/voicevox_pj
・"無料で使える中品質なテキスト読み上げソフトウェア”
・2021年12月〜? リリース
・対応OS:Win / Mac / Linux
*GitHub で誰でも開発に参加可
■COEIROINK 《コエイロインク》
・«HP» https://coeiroink.com/
・«Blog» https://shirowanisan.com/
・«Twitter» https://twitter.com/shirowanisan
・"COEIROINK(コエイロインク)は「CV(キャラクターボイス)」を無料で提供”
・2021年11月〜 リリース
・対応OS:Win (Win7 非対応) / Mac
*操作画面のUIはVOICEVOX、合成音声生成のアルゴリズムはVOICEVOXとは別
*自作CV作成可 & 配布可 ※COEIROINK HP上に一覧 (HOME > MYCOE)
■TALQu 《トーク》
・«HP» https://booth.pm/ja/items/2755336
・"TALQuとは深層学習系読み上げソフト”
・2021年02月〜 リリース
・対応OS:Winのみ (CPU版、GPU版)
*自作CV作成可 (開発者が手伝う版、自力で作成する版1、自力で作成する版2)
*「調声する」ボタンで調声可
■〜共通〜
*リリース時期が2021年末〜2022年にかけて
*ソフトも音声(CV)も無料 ←→ c.f.) VOCALOIDはソフトと音声(CV)がそれぞれ別 それぞれ有料 ※1
*商用・非商用問わず利用可
*キャラクターによっては複数のスタイル
*音声部(CV)の利用規約はソフト本体とは別途(音声ごとに)にある
※1...CVにエディターが付属してたりエディターにCVが付属してたりと、いろいろある
それぞれ詳細
↓サイトtop外観(スクショ) 「VOICEVOX」 「COEIROINK」 「TALQu」
↓ソフト外観(スクショ) 「VOICEVOX」 「COEIROINK」 「TALQu」※3 ※3…Win環境ないので未確認 〈TALQu のApp画像募集: 解像度144、800x556~559あたり(px)、urlの場所をお知らせ下さい〉
■VOICEVOX
«Twitter» https://twitter.com/voicevox_pj
- リリース:2021年12月? ※決定打となる記述がよくわからず...
- 対応OS:Win / Mac / Linux
- 開発者:Hiroshiba Kazuyuki (ヒホ) *“ヒホ”はPixivFNBOXでのアカウント名
- 備考:アプリやサービスに組み込めるVOICEVOXの各種配布物あり
- VOICEVOXコアライブラリ 「VOICEVOX CORE」
- VOICEVOXエンジン 「VOICEVOX ENGIEN」
- 「読み方&アクセント辞書」で単語・読み・アクセント登録が可
- パラメータ:全体を通しての設定
- 話速、音高、抑揚、音量、開始無音、終了無音
- 設定項目(2):単語ごとの設定
* アクセント- イントネーション
- 長さ
- 使い方:HP > 使い方 https://voicevox.hiroshiba.jp/how_to_use
- フィードバック:
感想・要望・Q&A に掲載されていない質問など
Twitter にてハッシュタグ #VOICEVOX を付けてツイート
*その他:
Twitter公式アカウント:2021-12-07〜
■COEIROINK
«Twitter» https://twitter.com/shirowanisan
- リリース:2021年11月19 (利用規約初出日、リリース動画公開日)
- 対応OS:Win (Win7 非対応) / Mac
- 開発者:shirowanisan (シロワニさん)
- 備考:
- 自作の合成音声「MYCOEIROINK」を作成& 配布可
-
操作画面のUIはVOICEVOX、合成音声生成のアルゴリズムはVOICEVOXとは別
- だから出力結果(複合名詞など)の第一印象が違う =推測=
- だから設定項目(下記)が「アクセント」の1種のみ =推測=
- 「読み方&アクセント辞書」で単語・読み・アクセント登録が可
- パラメータ:全体を通しての設定
- 話速、音高(音質劣化)、抑揚(音質劣化)、音量、開始無音、終了無音
- 設定項目(1):単語ごとの設定
* アクセント - 使い方:ソフト上で表示(表示されるのはVOICEVOXの使い方ページ)
- フィードバック: ? どこだろ...
Twiiterなら https://twitter.com/voicevox_pj
■TALQu
- リリース:2021/02/23 (2021/02/22 動画公開日)
- 対応OS:Winのみ (CPU版、GPU版)
- 開発者:Haruqa
- 備考:
- 声の設定項目(3):
* 話速:(初期値 100) 50で1/2倍速、200で2倍速
* 声の高さ:(初期値 1) 0.5で1オクターブ下、2で1オクターブ上、に
* 声色の高さ:(初期値 1) 下げると男性的(年齢が上がる)、あげると女性的(年齢が下がる) - フィードバック:
使用に関しての質問、不具合報告等について
YouTubeの正式リリース動画のコメント欄にて質問
https://youtu.be/KK4vdyx7e0k
▼ フリーソフト デモ結果
🌀VOICEVOXとCOEIROINKで「話者」は「キャラクター」なのでそれに準じている
1キャラで複数スタイル(≒声種)持つものもある 複数ある場合のみ<3>など表記
# 総キャラ数
補足info
※「まだ無い」or「まだない」…ひらがな or 漢字
の場合で読みに違いが出るかどうか
※「SSML」はアルファベットの読み
…『エスエスエムエル』と自然に読めるか
※「音声合成マークアップ言語」…これで“ひとまとまり”として読めるかどうか
日本語は複合名詞
の場合 単語ごとのイントネーションだか高低感だかが異なる
単に 名詞
、名詞
と単語を羅列するのとは違うイントネーションになるという規則性
※3…Win環境ないので未確認
■「林檎、ジュース。」「林檎ジュース。」
🌀 各パターンの読みが『名詞
、名詞
』の羅列の発声か、ひとまとまりの『複合名詞
』としての発声か。
発声が複合名詞となるパターン検証 @2022/08/14現在
※「林檎 ジュース」(全角スペース)の場合も半角スペースの欄に記載
TTS | 「林檎、ジュース。」 | 「林檎・ジュース。」 (※ドット) |
「林檎 ジュース。」 (半角スペース) |
「林檎ジュース。」 |
---|---|---|---|---|
VOICEVOX |
それぞれの名詞 | それぞれの名詞 |
それぞれの名詞 ※全角スペースでも複合名詞 |
複合名詞 |
COEIROINK |
それぞれの名詞 | それぞれの名詞 |
それぞれの名詞 ※全角スペースでも複合名詞 |
複合名詞 |
TALQu |
ー | ー | ー | ー |
補足info1:TALQu についてはWin環境ないので未確認
補足info2-1:VOICEVOX 「それぞれの名詞」
VOICEVOXでは、上記結果のとおり「それぞれの名詞」といえど、(下記の補足info3での) 1行に書いたpatarn1の1番目「林檎、ジュース」と、2番目以降「林檎・ジュース。」以下と、patarn2-1の「林檎、ジュース」、patarn2-2の「林檎・ジュース。」以下とではそれぞれ2番目以降の発音に違いあり。
VOICEVOXでpatarn1での書き方でそれぞれの名詞として自然な発音だと感じるのは1番目の組み合わせのみ。
具体的には2番目以降は「イントネーション」が違う。「林檎」部のイントネーション...。ちなみにpatarn2-2〜patarn2-4ではすべて自然な発音だと感じる。
補足info2-2:COEIROINK 「それぞれの名詞」
COEIROINKでは、「それぞれの名詞」はpatarn1でも、patarn2-1〜patarn2-4でも発音に違いあまりなく、自然な発音だと感じられる。
このあたりもVOICEVOXとは音声合成エンジンのアルゴリズムが別だという表れと思われる。
補足info3:テキスト入力欄 羅列パターン:2種
1. 「。(句点)」で1行で羅列
林檎、ジュース。林檎・ジュース。林檎 ジュース。林檎 ジュース。林檎ジュース。
2. 1行ずつ
林檎、ジュース。
林檎・ジュース。
林檎 ジュース。
林檎 ジュース。
林檎ジュース。
patarn2メモ: 〜VOICEVOX・COEIROINK 共通〜
※「。(句点)」を含む1行分としてコピペしたら行が分かれた、ので併せて検証
※このコピペは別のキャラクター(声、音源)で試そうとしたからなのだが、このように行が別れてしまうのは、そういう仕様だからと思われる