🔵音声合成サービス 一覧比較
前書き
※追記 2023/12/05:最近ネット動画「AbemaTV」でVOICEBOXのずんだもんの声でのナレーションのCMがあるのを見た(というか聞いた)
※追記 2022/11/29:CoeFontのアイコンが変更してたので該当画像類の反映、他
※追記 2022/08/14:フリーソフト関連を追加&上書き (これに伴い、今まで使ってた「フリーFree」は「組み込めタイプのFreeソフト」に変更)
└ 「VOICEVOX」「COEIROINK」「TALQu」 の3つ
└ フリーソフト関連部分に特化した記事(スクショなど画像あり):↓これ
※追記 2021/12/25:「CoeFont」関連について追加&上書き
└ 「CoeFont」関連部分に特化した記事(スクショなど画像あり):↓これ
※リンク追加「* まず予備知識」の章に & 少し文章追加や推敲 @追加 2021/10/25
※2021年1月頃にかけて各WEB API調べたことがあるのでメモ @初稿 2021年3月上旬
※onlineデモページ≒視聴できるページがある場合は『➡︎リンク文字』から外部リンク
※本稿の情報は投稿日を過ぎるにつれ古くなり、あるいは各サービスのupdateに伴い、実際とはちがってくるかもしれません
※サービス開始時期を改めて調べて見ると、API類はおおむね2015年〜などそのくらい、意外とと言うかだよねと言うかわりと近年(2021年3月現在)始まった/実用化されたサービス
※各サービスのupdateがありこれらとは変わっていたなら、コメントで教えてくれるとウレシイです
趣旨、前提、先に結論 ≪私見≫
趣旨
🌀 各サービスのコスト比較 無料/有料(課金) を横断的にメモ&感想etc...
🌀 各サービスの喋りの クオリティの 比較を横断的にメモ&感想etc...
🌀 とにかくクオリティ≒自然さ≒品質面に偏ってる(かもしれない)視点
前提
- アカウントの取り方は主旨から外れるので書いてない
- 日本語の場合を主に扱ってる
- WEB APIの分がメイン、ついでにonlineウェブサービスも、ついでにフリーソフトも(2022年8月追記)
- 組み込みタイプのフリーソフトの分はおまけ、冒頭に「▶︎」マークで折り畳み表示
- ここで言う“組み込みタイプのフリーソフト”はコマンドラインエディタとかターミナル(Macの場合)で使うタイプのもの
- WEB APIの分
CoeFont
VoiceText
AmazonPolly
Microsoft Asure
IBM Watson
+ フリーソフトの分VOICEVOX
COEIROINK
TALQu
+ 組み込みタイプのフリーソフトの分OpenJTalk
espeak
先に結論 ≪私見≫
🌀 フリーソフト類 VOICEVOX
COEIROINK
TALQu
が出たのは2021年
🌀 CoeFont
の声種の多さ(3000種以上)、カンタン調整(SSMLなくても)
🌀 VoiceText
(名称変更:2020春からReadSpeaker
)が自然&高品質 註1
🌀 onlineウェブサービスの分は結局、どれかの WEB API を使ってるっぽい
※聞いてみると声が同じケースあり
※「CoeFont」に関して + Qiitaでの「CoeFont」関連の記事いくつか
※サービス名(≒サイト名≒プラットホーム名)も「CoeFont」、声種≒話者名も「CoeFont」、会社名も("Yellston"から変更され)「CoeFont」
2022年1月1日:「CoeFont STUDIO」と「CoeFont CLOUD」を統合→新プラットフォーム「CoeFont」に変更
↓※上記を踏まえ、「CoeFont CLOUD」、いまは「CoeFont」。API
↓※上記を踏まえ、「CoeFont STUDIO」、2022年12月末まで
* まず予備知識
※ 調べたときの頻出単語、これからこの分野を調べる場合の頻出になるであろう単語など〈専門用語〉
項目名の太字部 が『知ってる・なんとなく分かる』なら読み飛ばしてOK
※ とりあえずいまは『こういう単語がポンポン出てきたよ〜』ということだけ覚えておいたらいい、という感じ〈一般人目線 / 初心者目線〉
※ もっとちゃんと知りたい場合は文書末尾の *参考リンク(専門用語) に挙げた各リンク先を読むなり自分で検索して読むなりして知識を深めて下さい
・ TTS:文章から自然な音声を生成する分野(や技術やサービス)の略語.
・ 「Text-to-Speech」=「テキスト読み上げ」、音声合成処理のこと
・ テキストから音声を作り出す, 任意の文章を任意の声色で喋らせる
・ 入力がテキストで出力が音声(MP3/WAV/OGGなど)
・ STT:TTSの逆、音声から文章を生成する分野(や技術やサービス)の略語.
・ 「Speech-to-Text」=「テキスト生成」、音声認識処理のこと
・ 音声からテキストを作り出す, マイクに喋って文章になる
・ 入力が音声で出力がテキスト
・ SSML:音声合成マークアップ言語. 「Speech Synthesis Markup Language」
・ WABEnet音声:(通常音声に対して)自然な声ってこと. googleが2017年に発表した...
・ ニューラル音声:(通常音声に対して)自然な声ってこと. AzureやAWSやIBMやVoiceTextの.
・ DNN:(ttsの分野では)自然な声を作り出す仕組みや手法やそういったもの.
・「ディープラーニング」=「深層学習」
・ 「Deep Neural Network」=「ニューラルネットワーク」 処理の層を深く(≒Deep)した
・ 深層学習は「機械学習」の手法の1つ
・ HMM:声を認識する仕組みや理論、技術(のうちの一つ).
・ 「hidden Markov model」=「隠れモルコフモデル」
・ 音声認識はTTSの逆で人間の会話をテキストに変換(Speech-to-Text)する技術
・ End-to-End (E2E): 声を認識する仕組みや理論、技術(のうちの一つ).
・ 「End To End」の頭文字で E2Eと略されることもあり
・ DNN-HMMのハイブリッドな仕組み:2011年ごろ〜
・ End-to-Enの仕組み:2016年ごろ〜
・ NLP:(AIの分野では)大量のテキストデータを人工知能(AI)が分析する技術(や分野)のこと
・ (AIの分野では)「Natural Language Processing」=「自然言語処理」
・ (心理学や心理療法の分野では)「Neuro Linguistic Programing」=「神経言語プログラミング」
・ 自然言語処理:人工知能(AI)が大量のテキストデータを分析する技術の(や分野)のこと
・ ヒトが普段喋ってる言葉(自然言語)の一連の技術(や分野)、人工知能(AI)と言語学の一分野
・ 例文) "自然言語処理(NLP)とは何か"
🔗Qiita同分野記事へのリンク:
↓ココ10年の流れ・大局観、一般向け(専門的すぎない)
↓図解わくわく of ニューラルネットワーク(テキスト解析・音響モデル・Vocoder)
↓図解ワクワク of (TTS分野での)DNN、内容自体は専門的
↓ずばり音声合成ツールキット、これは専門的
■音声合成 WEB API:6つ
▼ WEB API
- VoiceText | (HOYA) * Jaのみ (完全無料)
- HOYA株式会社が提供する高品質な音声合成サービス
名称変更:VoixeText -(2020年5月)-> ReadSpeaker
名称変更前の分(=VoiceText)が無料APIとなってる(みたい)
- HOYA株式会社が提供する高品質な音声合成サービス
- CoeFont | (CoeFont) * Jaのみ (有料)
- 株式会社CoeFontが提供する高品質な音声合成サービス
サービス名(≒HP名≒プラットホーム名)も声種(≒話者名)も「CoeFont」
自分の声からCoeFontを(驚きの低価格で)作ることも可能
- 株式会社CoeFontが提供する高品質な音声合成サービス
- Amazon Polly | AWS (Amazon) * 多言語 (下記表参照)
-
AWS(Amazon Web Service)のサービスの一つ
AWSはAmazonの提供するWebサービス群の総称
⚠︎要AWSアカウント,要login
-
AWS(Amazon Web Service)のサービスの一つ
- Text to Speech | Google Cloud (Google) * 多言語 (下記表参照)
- Google Cloud Platform が提供するサービスのひとつ
- Text to Speech | Azure (Microsoft) * 多言語 (下記表参照)
- Microsoft Azureが提供するサービスの一つ
Speech Servicesに含まれる
- Microsoft Azureが提供するサービスの一つ
- Watson Text to Speech | (IBM) * 多言語 (下記表参照)
- IBM Cloudが提供するサービスの一つ
▼ onlineウェブサービス
-
CoeFont > CoeFontを使う * 日本語 / 英語 / スペイン語 / 中国語 / フランス語
-
いつの間にか多言語対応 (追記@2023/12/05):
- ただし、スペイン語とフランス語はメニューにはあるが「検索結果が見つかりませんでした」と出る
- サイト自体の対応言語:Ja / En
- 要loginだがGoogleアカウントでloginできる
- 作成された音声データの商用利用可能(すべてのプランで)
- 音声の使用にはクレジット表記必須:「Voiced by CoeFont.CLOUD」
例)投稿動画のナレーションに使用したときなど - 作成された音声データは
→Audio保存可
→各種調整:簡単にできる【音量/スピード/アクセント/抑揚など】
-
いつの間にか多言語対応 (追記@2023/12/05):
-
NaturalReader > online (NaturalSoft Ltd.) * 多言語、日本語は無い
- サイト自体の言語:En
-
VocalWare > Demo (VocalWare) * 言語、日本語もある
- サイト自体の言語:Ja,En,else...
-
テキスト読み上げリーダー (TextFromToSpeech) * 多言語、日本語もある
- サイト自体の言語:Ja,En,else...
▼ フリーソフト
- VOICEVOX * 日本語のみ
- ヨミ:ボイスボックス
- 対応OS:Win / Mac / Linux
- 作成された音声データは
→Audio保存可
→各種調整:簡単にできる【アクセント/イントネーション】
- COEIROINK * 日本語のみ
- ヨミ:コエイロインク
- 対応OS:Win (Win7 非対応) / Mac
- 作成された音声データは
→Audio保存可
→各種調整:簡単にできる【アクセント】
- TALQu * 日本語のみ
- ヨミ:トーク
- 対応OS:Winのみ (CPU版、GPU版)
- 作成された音声データは
→Audio保存可
→各種調整:簡単にできる【話速/声の高さ/声色の高さ】
組み込みタイプのFreeソフト (2コ)
2. espeak (Freeソフト) * En1種のみ(男性声)
≪参考_インストール手順≫
macでコードから音声を喋らせる (eSpeak, OpenJTalk)
https://qiita.com/msrks/items/4015ea03760cc28b7374
- - - - - open/hide END - - - - - -
▼ 有料ソフト,有料WebAPI
※この章は2022/11/30に追加
- AITalk® * 多言語対応[日本語(18話者)]
- ヨミ:エーアイトーク
- 各種機能【自由文音声(TTSのこと)、単語登録、感情表現(喜/怒/哀/楽)】
- 調整項目【話速、イントネーション、音高】
- 対応OS:Winのみ
- Macは対象外(※仮想環境上でのご利用は製品のサポート対象外)
- AITalk® シリーズ製品:法人向けと個人向けがある
- 法人向けサイト:https://www.ai-j.jp/
- 個人向けサイト:https://www.ai-j.jp/consumer/
AITalk® シリーズ製品(いっぱい):個人向け
* A.I.VOICE * AITalkシリーズ * かんたん!AITalk®5 * かんたん!アフレコ * かんたん!AITalk®3 * かんたん!AITalk®Ⅱ Plus * AITalk® あなたの声®---open/hide--ココまで
AITalk® シリーズ製品(いっぱい):法人向け
→Audio保存可
→各種調整:簡単にできる【音量、話速、ピッチ、抑揚、ポーズ長】 * AITalk® 声の職人® [AICloud]:「AITalk® 声の職人S」のWebブラウザ上で利用できるクラウド版 * 提供形態:クラウド / API / SaaS * AITalk® 声プラス®:PowerPoint®アドインソフト * 提供形態:PCインストール * PowerPoint®のスライドに簡単に音声をプラスできる * AITalk® SDK:Windows/Linuxソフトウェア開発キット *提供形態:ライブラリ(dll、so) * AITalk® Server:音声読み上げソフト、サーバー設置型音声合成エンジン * インターネットサービスなど、ネットワークを利用し、マルチタスクで合成処理を行う場合に最適 * AITalk® micro:組み込み式の小型音声合成ソフトウェア開発キッド * 提供形態:ライブラリ(dll、so) * Android・iOSに対応 * AITalk® CustomVoice®:有名人もしくは自分の声を収録して音声合成を作成できるサービス * 提供形態:スタジオ収録 * AITalk international®:41の国の言語の音声合成に対応したソフト * 提供形態:PCインストール * AITalk 声の職人S:日本語ナレーション作成 * 提供形態:PCインストール * 対応OS:Winのみ * AITalk® Web読み職人 [AICloud]:ホームページ(webページ)の内容を読み上げるサービス * 提供形態:クラウド / API / SaaS * VOITER:AIライティングレコーダー * 提供形態:AIライティングレコーダー端末 ---open/hide--ココまで
■概要
▼ WEB API 概要
補足@VoiceText:
2020年5月:名称変更「VoiceText」→「ReadSpeaker」
…製品版「ReadSpeaker」が出来て、VoiceTextは無料API化? =詳細未確認=
▼ onlineウェブサービス 概要
TTS -online- | 無料 | 有料 | その他 |
---|---|---|---|
CoeFont (CoeFont) |
無料の話者(≒声種)を選べば無料 (1文字あたり0pt) |
有料の話者(≒声種)を選べば有料 (1文字あたり5pt〜10pt) |
*SSML未対応 調整可能option: 音量,読み方・アクセント,スピード など ※日本語 / 英語 / スペイン語 / 中国語 / フランス語 |
NaturalReader > online (NaturalSoft Ltd.) |
無料版 ・フリーボイス:無制限 ・プレミアムボイス:1日20分 |
有料版: プレミアム/プラス MP3保存可(100万文字/月)※話者によっては不可 |
*SSML未対応 使用可能option1つ:volume ※日本語未対応 |
Vocalware | as Demoページ | *SSML対応 | |
テキスト読み上げリーダー (TextFromToSpeech) |
*読み上げだけなら無料 |
*音声の保存は有料(重量課金) ※要サインアップ | *SSML未対応 使用可能option3つ:speed,pitch,voleme |
補足info @CoeFont
CoeFontでは “ポイント”を使用して音声を生成
ポイントは月々付与される=もらえる(加入プランによって付与されるpt数が異なる)
CoeFontの使用ポイントは1文字あたり 5pt (0.05円)~ 10pt(0.1円) など
+ 圧倒的話者数(子どもの声もある)
補足info @NaturalReader
※読み上げ音声のoptionはvolume(音量)のみだが、下記がSettingから設定可:
- dark mode (on/off) ダークモード
- Dyslexia Font (on/off) 失読症フォント
- Volume (単位:%) 音量
- Word Highlight (on/off) 単語の強調 リアルタイムで読んでいるヶ所ハイライト
- Reading Settings 読み上げ設定 ※カッコ囲みの文字スキップon/off、URLのスキップon/off
▼ フリーソフト 概要
TTS -software- | 対応OS | 初期CV数 | 自作CV の 可否 |
---|---|---|---|
ソフト名 | ソフトDL時 | 自分の声でCV作成 | |
VOICEVOX |
Win / Mac / Linux ※WinはCPU版、GPU版 |
12 ※1 | 未対応? |
COEIROINK |
Win (Win7 非対応) / Mac | 1 ※2 | 対応 |
※3 TALQu |
Winのみ (CPU版、GPU版) | =未確認= (※3) | 可能 |
補足Info
※1…CVによっては複数スタイル(4〜5)
※2…ダウンロード時は1つのCV1つのスタイル 「つくよみちゃん(れいせい)」 のみ
※3…Win環境ないので未確認
▼ WEB API サービス開始時期
補足@CoeFont
※1:この頃から WEB API があったかどうかは未確認
補足@VoiceText:
2020年5月:名称変更「VoiceText」→「ReadSpeaker」
…製品版「ReadSpeaker」が出来て、VoiceTextは無料API化? =詳細未確認=
組み込みタイプのFreeソフト 概要 (2コ) (clickして展開)
TTS | 備考1 | 個人的感想・印象 |
---|---|---|
OpenJTalk |
#音響モデルで話者変更可 *不自然さは音響モデルによりピンキリ 音響モデル「*.htsvoice」 (註1) |
✖︎ 喋りが不自然・・・! * 個人的には許容できない (註2) |
espeak | * 男性声のみ * ターミナル.appからもしくはpythonから |
*すごく無機質な感じ |
(註1)デフォルト的な「....m100.htsvoice」という男性声の分(ファイル名長いので前の方は略)がなんとかマシな程度...
音響モデルはいくつか配布されてるが、正直ピンキリで、喋りとして不自然なばかりか、オカシすぎて聞きづらい品質のものが多い
(註2)YouTubeの“実況”や“ナレーション”で聴いたことあるアノ感じ
おそらくOpenJTalkのとある音響モデル
- 音響モデル:キャラクターボイス(CV)名のようなものか開発コードネームのようなもの
- UTAU音源の音響モデルもある、ファイル名のCV部が日本語(全角)
- 試した時はファイル名にスペースあると (CV部の氏名の間に半角スペース) NGだったのでそういう場合はスペースをとるなり「-(ハイフン)」や「_(アンダーバー)」に変更するなりした方が良さげ
- - - - - open/hide END - - - - - -
■デモページ
▼ WEB API デモページ
🌀 使用できる話者(日本語)と共通の文章での再生結果
「➡︎リンク先」は 用意されてるtext欄に入力した文章で視聴できるページ ※2021/03/06現在
※話者名で濃い色…良かった分(個人的判定)
#日本語 話者-デモで聴ける話者人数- / -APIで使用できる話者人数-
TTS -WAB- | 視聴できるページでの話者一覧 & 第一印象など |
「名前はまだない。」 「名前はまだ無い。」ほか、表下の補足info参照 |
---|---|---|
TTS名称 (企業名etc) |
なまえ,性別(年齢): 印象 #ref. above |
上記の違い有り/無し - - - 「各text」:自然さの○△✖︎評価 |
➡️VoiceText (HOYA) |
hikari,女性(21): haruka,女子(?): takeru,男性(21): show,男性(40): #日本語 話者4人 / API 6人 |
違い無し - - - 「SSML」:○ 「音声合成マークアップ言語」:○ |
➡️CoeFont (CoeFont) |
アナウンサー,女性(?): 男性声優,男性(?): 男性声優(喜),男性(?): 男性声優(怒),男性(?): 男性声優(哀),男性(?): 男性声優(楽),男性(?): #日本語 話者6種 / 3000種以上 |
違いなし - - - 「SSML」:✖︎ 「音声合成マークアップ言語」:✖︎ - - - ※ただしloginして使用するなら、こういったことは調整で挽回可能(上記既出画像参照) |
➡️Amazon Polly AWS(Amazon) ⚠︎要AWSアカウント,要login |
Mizuki,女性(?): 喋り方やや老け? Takumi(?):,男性(40): 良さげ #日本語 話者2人 / API 2人 |
違い無し ≪ただし余計な間≫ ├「名前は...まだ無い。」△ └「名前は...まだない。」△ - - - 「SSML」:○ 「音声合成マークアップ言語」:○ |
➡️Text-to-Speech (Google Cloud) |
ja-JP-Wavenet A,女性(?): イマイチ ja-JP-Wavenet B,女性(?): 落ち着いた○ ja-JP-Wavenet-C,男性(?): 良さげ ja-JP-Wavenet-D,男性(?): 良い○ #日本語 話者4人 / API 8人 |
違い無し - - - 「SSML」:○ 「音声合成マークアップ言語」:○ |
➡️Text-to-Speech (Microsoft Azure) |
Nanami (Nural) - 七海,女性(?): ○ Keita (Nural) - 圭太,男性(?): 老け○ Ayumi - あゆみ,女性(?): △✖︎ Haruka - 春香,女性(?): △✖︎ Ichiro - 一郎,男性(?): 老け #日本語 話者5人 / API 2人 |
違いほぼ無し - - - * 「吾輩は猫である」Keitaのみやや違う ニューラル以外は✖︎(イントネーションがオカシイ) - - - 「SSML」:✖︎ 「音声合成マークアップ言語」:✖︎ |
➡️Watson Text-to-Speech (IBM) |
Emi,女性(?): △✖︎ #日本語 話者1人 / API 1人 |
違いあり ├「名前は/まだ/ない。」✖︎オカシイ └「名前はまだ無い。」○ - - - 「SSML」:✖︎ 「音声合成マークアップ言語」:✖︎ - - - * 違いありなしの前に、色々イントネーションがおかしいヶ所多い * 喋り出すまでが時間かかる |
補足info
※「まだ無い」or「まだない」…ひらがな or 漢字
の場合で読みに違いが出るかどうか
※「SSML」はアルファベットの読み
…『エスエスエムエル』と自然に読めるか
※「音声合成マークアップ言語」…これで“ひとまとまり”として読めるかどうか
日本語は複合名詞
の場合 単語ごとのイントネーションだか高低感だかが異なる
単に 名詞
、名詞
と単語を羅列するのとは違うイントネーションになるという規則性
補足info: VoiceTextアイコン x emotion別 (clickして展開)
- - - - - open/hide END - - - - - -
▼ onlienウェブサービス デモページ
「➡︎リンク先」は 用意されてるtext欄に入力した文章で視聴できるページ
TTS -online- | 視聴できるページでの話者一覧 & 第一印象など |
「名前はまだない。」 「名前はまだ無い。」ほか |
---|---|---|
TTS名称 (企業名etc) |
なまえ,性別(年齢): 印象 #ref. above |
上記の違い有り/無し - - - |
➡️CoeFont (CoeFont) |
アナウンサー,女性(?): 男性声優,男性(?): 男性声優(喜),男性(?): 男性声優(怒),男性(?): 男性声優(哀),男性(?): 男性声優(楽),男性(?): #日本語 話者6種 / 3000種以上 |
違いなし - - - 「SSML」:✖︎ 「音声合成マークアップ言語」:✖︎ - - - ※ただしloginして使用するなら、こういったことは調整で挽回可能(上記既出画像参照) |
➡︎NaturalReader > online (NaturalSoft Ltd.) |
-日本語未対応- #日本語 話者0 |
ー |
➡︎Vocalware > Demo |
Haruka,女子:VoiceText Hikari,女性:VoiceText Himari,女性 :△✖︎ Kaito,男性:○△ Misaki,女性:△✖︎ Ryo,男性:ReadSpeaker Sayaka,女性:ReadSpeaker Show,男性:VoiceText Takeru,男性:VoiceText (註1) #日本語 話者9人 |
*VoiceText,ReadSpeakerのキャラはそれぞれの発声と同等 Himari:違いあり →(註2) Kaito:違いあり Misaki:違い無し - - - *Himariの場合イントネーションがオカシイ *Misaki「まだない」部分が速い |
➡︎テキスト読み上げリーダー (TextFromToSpeech) |
Kyoko,女性(?): ○ 日本語,女性(?): △✖︎ #日本語 話者2人 |
Kyoko:違い無し 日本語:違いあり →(註2) - - - *日本語の場合イントネーションがオカシイ |
補足info
(註1)「NaturalReader > online」は9名中6名分がVoiceText,ReadSpeakerの話者、…じゃない?
(註2)同じ話者:「Vocalware > Demo」の Himari = 「テキスト読み上げリーダー」の日本語
※「Vocalware > Demo」の Kaitoが“どこの or 何の or 誰”だか知ってる方はご一報いただけるとウレシイです
※「Vocalware > Demo」ははじめChromeだと再生出来ない、
が、一旦他のブラウザ-試したのはSafari-で再生させた後、
Chromeを再読み込みするとなぜか再生できるようになった…
▼ フリーソフト デモ結果
🌀VOICEVOXとCOEIROINKで「話者」は「キャラクター」なのでそれに準じている
1キャラで複数スタイル(≒声種)持つものもある 複数ある場合のみ<3>など表記
# 総キャラ数
補足info
※「まだ無い」or「まだない」…ひらがな or 漢字
の場合で読みに違いが出るかどうか
※「SSML」はアルファベットの読み
…『エスエスエムエル』と自然に読めるか
※「音声合成マークアップ言語」…これで“ひとまとまり”として読めるかどうか
日本語は複合名詞
の場合 単語ごとのイントネーションだか高低感だかが異なる
単に 名詞
、名詞
と単語を羅列するのとは違うイントネーションになるという規則性
※3…Win環境ないので未確認
組み込みタイプのFreeソフト デモページ(聴けるページ:2ページ) (clickして展開)
デモページ/onlineサービス(どちらも最大200文字)
どちらもOpenJTalkの音声デモ
ページ名 | 話者 | コントロールできる項目 |
---|---|---|
公式デモページ OpenJTalk |
6種:実質2人(Meiが感情別) M001(男性):最もマシ Mei_normal::通常 Mei_happy::嬉 Mei_bashful::恥 (シャイ) Mei_angry::怒 Mei_sad::哀 |
※公式のほうが設定できる項目少ない... 声質:-0.8〜0.8, 標準:0.55 ピッチシフト:-24〜24, 標準:0 話速:-0.5〜2.0, 標準:1.0 |
CMANのツールページ by OpenJTalk |
2種:実質2人 男性の声 女性の声 |
※すべてに"標準(0)"がある 声質:11段階 低い遅い(-5)〜高い早い (+5) 速度:11段階 遅い(-5)〜早い(+5) 高低:11段階 低い(-5)〜高い(+5) 絞り:11段階 低く絞る(-5)〜高く絞る(+5) 平坦:6段階 平坦(+1)〜平坦(+5) |
(none) by espeak |
あったら教えてください | ー |
補足info:CMANの
※声質…(略)
※速度…(略)
※高低…機械的な高低変更のような感じ、これせいぜい[-2]とか[+1]とかの範囲
・加工の雰囲気が「プライバシー保護のため音声を変えてあります」みたいな感じ
・[-3]〜[-5]、[+3]〜[+5]はノイズがひどい
※絞り…声色を変えての高低感みたいな感じ、使用に耐えうるのは[-2]〜[0]〜[+2]の範囲
・本人が声色をわざと変えて喋ってるみたいな感じ、「-(マイナス)」でも「+(プラス)」でも数字が大きくなると破綻する感じ
・[-3]〜[-5]はノイズというか“ゴロゴロ”しだす
・[+3]〜[+5]は[+3]あたりだと(男性声だと)ミッキーマウスの声(!)みたいな感じ
※平坦…よく違いが分からん、が、+4、+5 だとノイズがひどい
- - - - - open/hide END - - - - - -
■「林檎、ジュース。」「林檎ジュース。」
🌀 各パターンの読みが『名詞
、名詞
』の羅列の発声か、ひとまとまりの『複合名詞
』としての発声か。
発声が複合名詞となるパターン検証 @2021/03/06現在
※追記@2021/12/25:「林檎 ジュース」(全角スペース)の場合も半角スペースの欄に記載(Amazon Polly AWS(Amazon)以外)
※CoeFontのみ「林檎」だと読みがオカシかったので「りんご」で検証 @2021/12/25現在)
TTS | 「林檎、ジュース。」 | 「林檎・ジュース。」 (※ドット) |
「林檎 ジュース。」 (半角スペース) |
「林檎ジュース。」 |
---|---|---|---|---|
VoiceText (HOYA) 「。」なし改行だと続いてしまう ➡️VoiceText (HOYA) |
それぞれの名詞 | 複合名詞 |
それぞれの名詞 ※全角スペースでもそれぞれの名詞 |
複合名詞 |
CoeFont(CoeFont) 「。」なし改行、区切りとして反映 ➡️CoeFont (CoeFont) |
それぞれの名詞 | それぞれの名詞 |
複合名詞 ※全角スペースでも複合名詞 |
複合名詞 |
Amazon Polly AWS(Amazon) 「。」なし改行だと続いてしまう ➡️Amazon Polly AWS(Amazon) ⚠︎要AWSアカウント,要login |
それぞれの名詞 | それぞれの名詞 |
複合名詞 ※全角スペースの場合=未検証 |
複合名詞 |
TTS (Cloud google) 「。」なし改行だと続いてしまう ➡️Text-to-Speech (Google Cloud) |
それぞれの名詞 | それぞれの名詞 |
複合名詞 ※全角スペースでも複合名詞 |
複合名詞 |
TTS (Azure) 「。」なし改行、区切りとして反映 ➡️Text-to-Speech (Microsoft Azure) |
それぞれの名詞 | 「。(句点)」で続けて1行: 複合名詞 「。(句点)」で改行: 複合名詞? *ビミョー 句点ナシ改行: 複合名詞? *ビミョー |
「。(句点)」で続けて1行: 複合名詞 「。(句点)」で改行: 複合名詞? *ビミョー 句点ナシ改行: 複合名詞? *ビミョー ※全角スペースだと「はやし/ごジュース」 |
「。(句点)」で続けて1行: 複合名詞 「。(句点)」で改行: 複合名詞? *ビミョー 句点ナシ改行: 複合名詞? *ビミョー |
Watson TTS (IBM) 「。」なし改行だと続いてしまう ➡️Watson Text-to-Speech (IBM) |
それぞれの名詞 | それぞれの名詞 |
それぞれの名詞 ※全角スペースでもそれぞれの名詞 |
複合名詞 |
VOICEVOX |
それぞれの名詞 | それぞれの名詞 |
それぞれの名詞 ※全角スペースでも複合名詞 |
複合名詞 |
COEIROINK |
それぞれの名詞 | それぞれの名詞 |
それぞれの名詞 ※全角スペースでも複合名詞 |
複合名詞 |
TALQu |
ー | ー | ー | ー |
補足info1:TALQu についてはWin環境ないので未確認
補足info2-1:VOICEVOX 「それぞれの名詞」
VOICEVOXでは、上記結果のとおり「それぞれの名詞」といえど、(下記の補足info3での) 1行に書いたpatarn1の1番目「林檎、ジュース」と、2番目以降「林檎・ジュース。」以下と、patarn2-1の「林檎、ジュース」、patarn2-2の「林檎・ジュース。」以下とではそれぞれ2番目以降の発音に違いあり。
VOICEVOXでpatarn1での書き方でそれぞれの名詞として自然な発音だと感じるのは1番目の組み合わせのみ。
具体的には2番目以降は「イントネーション」が違う。「林檎」部のイントネーション...。ちなみにpatarn2-2〜patarn2-4ではすべて自然な発音だと感じる。
補足info2-2:COEIROINK 「それぞれの名詞」
COEIROINKでは、「それぞれの名詞」はpatarn1でも、patarn2-1〜patarn2-4でも発音に違いあまりなく、自然な発音だと感じられる。
このあたりもVOICEVOXとは音声合成エンジンのアルゴリズムが別だという表れと思われる。
補足info3 テキスト入力欄 羅列パターン:3種
※上記表で『「。」なし改行だと続いてしまう』とあるのは下記でいう 3 の場合
どのサービスにおいても共通して安全策と言えるのは、単語や文章の区切りには「、(読点)」か「。(句点)」をつけることと、行の終わり(改行前)に「。(句点)」をつけること。 (というか3の書き方は上記理由によりキケン)
1. 基本的に「。(句点)」で1行で羅列か
林檎、ジュース。林檎・ジュース。林檎 ジュース。林檎ジュース。
2. 「。(句点)」で改行で羅列か
林檎、ジュース。
林檎・ジュース。
林檎 ジュース。
林檎ジュース。
3. 「。(句点)」なし改行で羅列か
林檎、ジュース
林檎・ジュース
林檎 ジュース
林檎ジュース
『3. 「。(句点)」なし改行で羅列かの書き方について:
”林檎”と”ジュース”のあいだの“間”がどれくらいかの発声を確認してたのに、この書き方だと 例えば1行目と2行目の(当然区切りがあると思っていた)“間”がなく、すべての 行と行 の間がなく「続いてしまう」という不測の事態になる (例:1行目最後と2行最初の単語間の“間”がない)
* 参考リンク (専門用語)
🌀 単語(専門用語)の概念や意味などについては参考になったページ (@2021年3月現在)
・大手APIリファレンス類の字ばっかりなページより平易で分かりやすい≒より一般向けな感じ
・あるいは自分が検索した時の上位ページ:エンジニア向けメディア, AI専門メディア
【オトナリ】 音声合成ソフトをまとめました (2022/11/29追加)
※このリンク先はオススメ。あちこち検索かける位ならここだけでOK、ここの各メニュー記事でTTS関連をだいたい網羅と言って過言はない。難しすぎないのも良き(TTSなど専門用語の略語が少なめ)。
音声合成ができる製品一覧|音声合成ソフトの利用例|音声合成ソフトと業界|音声合成ソフトの基礎知識|音声合成の悩みについて
https://www.soft-voicesynthesis.com/
ReadSpeaker:VoiceTextのバージョンアップ・製品版(有料)
多言語・感情表現など多彩なバリエーション
カスタマイズ可能なAIテクノロジー
https://readspeaker.jp/
※「音声合成の俳優事務所(2022/11/29追加)」はおすすめ。メニューの「Feature」の各記事でttsや音声合成処理の仕組みなどwith図説。難しすぎないのも良き。
VoiceText:ReadSpeakerのバージョンアップ前(無料)
Webに声を、感情を。
高品質な音声合成VoiceTextが、簡単に使えるWeb APIに
https://cloud.voicetext.jp/webapi
ログミーTech
「DNN-HMM」から「End-to-End」へ LINEが取り組む音声認識のしくみ
End-to-End音声認識の概要とプロダクト化への課題 #1/2
Tokyo BISH bash・2020.11.16
https://logmi.jp/tech/articles/323498
AINOW
今さら聞けない「自然言語処理(NLP)」とは? [2019.04.22]
https://ainow.ai/natural_language_processing/
初心者でもわかるディープラーニング ー 基礎知識からAIとの違い、導入プロセスまで細かく解説 [2019.08.06]
https://ainow.ai/2019/08/06/174245/
機械学習をどこよりもわかりやすく解説! 教師ありなし学習・強化学習だけでなく5つのアルゴリズムも完全理解! [2019.11.26]
https://ainow.ai/2019/11/26/180809/