LoginSignup
16
9

音声合成サービス 一覧比較 =WebAPIがメイン=

Last updated at Posted at 2021-03-10

🔵音声合成サービス 一覧比較

前書き

※追記 2023/12/05:最近ネット動画「AbemaTV」でVOICEBOXずんだもんの声でのナレーションのCMがあるのを見た(というか聞いた)

※追記 2022/11/29:CoeFontのアイコンが変更してたので該当画像類の反映、他

※追記 2022/08/14:フリーソフト関連を追加&上書き (これに伴い、今まで使ってた「フリーFree」は「組み込めタイプのFreeソフト」に変更)
 └ 「VOICEVOX」「COEIROINK」「TALQu」 の3つ
 └ フリーソフト関連部分に特化した記事(スクショなど画像あり):↓これ

※追記 2021/12/25:「CoeFont」関連について追加&上書き
 └ 「CoeFont」関連部分に特化した記事(スクショなど画像あり):↓これ

※リンク追加「* まず予備知識」の章に & 少し文章追加や推敲 @追加 2021/10/25
※2021年1月頃にかけて各WEB API調べたことがあるのでメモ @初稿 2021年3月上旬
※onlineデモページ≒視聴できるページがある場合は『➡︎リンク文字』から外部リンク

※本稿の情報は投稿日を過ぎるにつれ古くなり、あるいは各サービスのupdateに伴い、実際とはちがってくるかもしれません
※サービス開始時期を改めて調べて見ると、API類はおおむね2015年〜などそのくらい、意外とと言うかだよねと言うかわりと近年(2021年3月現在)始まった/実用化されたサービス
※各サービスのupdateがありこれらとは変わっていたなら、コメントで教えてくれるとウレシイです

趣旨、前提、先に結論 ≪私見≫

趣旨
🌀 各サービスのコスト比較 無料/有料(課金) を横断的にメモ&感想etc...
🌀 各サービスの喋りの クオリティの 比較を横断的にメモ&感想etc...
🌀 とにかくクオリティ≒自然さ≒品質面に偏ってる(かもしれない)視点

  
前提

  • アカウントの取り方は主旨から外れるので書いてない
  • 日本語の場合を主に扱ってる
  • WEB APIの分がメイン、ついでにonlineウェブサービスも、ついでにフリーソフトも(2022年8月追記)
  • 組み込みタイプのフリーソフトの分はおまけ、冒頭に「▶︎」マークで折り畳み表示
    • ここで言う“組み込みタイプのフリーソフト”はコマンドラインエディタとかターミナル(Macの場合)で使うタイプのもの
    • WEB APIの分 CoeFont VoiceText AmazonPolly Microsoft Asure IBM Watson + フリーソフトの分 VOICEVOX COEIROINK TALQu + 組み込みタイプのフリーソフトの分 OpenJTalk espeak

  
先に結論 ≪私見≫
🌀 フリーソフト類 VOICEVOX COEIROINK TALQu が出たのは2021年
🌀 CoeFont の声種の多さ(3000種以上)、カンタン調整(SSMLなくても)
🌀 VoiceText (名称変更:2020春からReadSpeaker)が自然&高品質 註1
🌀 onlineウェブサービスの分は結局、どれかの WEB API を使ってるっぽい
  ※聞いてみると声が同じケースあり

これは使える!日本と世界のTTS(Text-to-Speech)ナレーターたち [2017年4月 26日]

※「CoeFont」に関して + Qiitaでの「CoeFont」関連の記事いくつか

※サービス名(≒サイト名≒プラットホーム名)も「CoeFont」、声種≒話者名も「CoeFont」、会社名も("Yellston"から変更され)「CoeFont」
2022年1月1日:「CoeFont STUDIO」と「CoeFont CLOUD」を統合→新プラットフォーム「CoeFont」に変更

↓※上記を踏まえ、「CoeFont CLOUD」、いまは「CoeFont」。API

↓※上記を踏まえ、「CoeFont STUDIO」、2022年12月末まで

 

* まず予備知識

※ 調べたときの頻出単語、これからこの分野を調べる場合の頻出になるであろう単語など〈専門用語〉

項目名の太字部 が『知ってる・なんとなく分かる』なら読み飛ばしてOK

※ とりあえずいまは『こういう単語がポンポン出てきたよ〜』ということだけ覚えておいたらいい、という感じ〈一般人目線 / 初心者目線〉

※ もっとちゃんと知りたい場合は文書末尾の *参考リンク(専門用語) に挙げた各リンク先を読むなり自分で検索して読むなりして知識を深めて下さい

TTS:文章から自然な音声を生成する分野(や技術やサービス)の略語.
  ・ 「Text-to-Speech」=「テキスト読み上げ」、音声合成処理のこと
  ・ テキストから音声を作り出す, 任意の文章を任意の声色で喋らせる
  ・ 入力がテキストで出力が音声(MP3/WAV/OGGなど)

    ・ STT:TTSの逆、音声から文章を生成する分野(や技術やサービス)の略語.
    ・ 「Speech-to-Text」=「テキスト生成」、音声認識処理のこと
    ・ 音声からテキストを作り出す, マイクに喋って文章になる
    ・ 入力が音声で出力がテキスト

SSML:音声合成マークアップ言語. Speech Synthesis Markup Language」
WABEnet音声:(通常音声に対して)自然な声ってこと. googleが2017年に発表した...
ニューラル音声:(通常音声に対して)自然な声ってこと. AzureAWSIBMVoiceTextの.
DNN:(ttsの分野では)自然な声を作り出す仕組みや手法やそういったもの.
  ・「ディープラーニング」=「深層学習」
  ・ 「Deep Neural Network」=「ニューラルネットワーク」 処理の層を深く(≒Deep)した
  ・ 深層学習は「機械学習」の手法の1つ

HMM:声を認識する仕組みや理論、技術(のうちの一つ).
  ・ 「hidden Markov model」=「隠れモルコフモデル」
  ・ 音声認識はTTSの逆で人間の会話をテキストに変換(Speech-to-Text)する技術

End-to-End (E2E): 声を認識する仕組みや理論、技術(のうちの一つ).
  ・ 「End To End」の頭文字で E2Eと略されることもあり
  ・ DNN-HMMのハイブリッドな仕組み:2011年ごろ〜
  ・ End-to-Enの仕組み:2016年ごろ〜

NLP:(AIの分野では)大量のテキストデータを人工知能(AI)が分析する技術(や分野)のこと
  ・ (AIの分野では)「Natural Language Processing」=「自然言語処理」
  ・ (心理学や心理療法の分野では)「Neuro Linguistic Programing」=「神経言語プログラミング」

自然言語処理:人工知能(AI)が大量のテキストデータを分析する技術の(や分野)のこと
  ・ ヒトが普段喋ってる言葉(自然言語)の一連の技術(や分野)、人工知能(AI)と言語学の一分野
  ・ 例文) "自然言語処理(NLP)とは何か"

🔗Qiita同分野記事へのリンク

↓ココ10年の流れ・大局観、一般向け(専門的すぎない)

 
↓図解わくわく of ニューラルネットワーク(テキスト解析・音響モデル・Vocoder)

 
↓図解ワクワク of (TTS分野での)DNN、内容自体は専門的

 
 ↓ずばり音声合成ツールキット、これは専門的

 

■音声合成 WEB API:6つ

▼ WEB API

  • VoiceText | (HOYA)              * Jaのみ (完全無料)
    • HOYA株式会社が提供する高品質な音声合成サービス
      名称変更:VoixeText -(2020年5月)-> ReadSpeaker
      名称変更前の分(=VoiceText)が無料APIとなってる(みたい)
  • CoeFont | (CoeFont)              * Jaのみ (有料)
    • 株式会社CoeFontが提供する高品質な音声合成サービス
      サービス名(≒HP名≒プラットホーム名)も声種(≒話者名)も「CoeFont」
      自分の声からCoeFontを(驚きの低価格で)作ることも可能
  • Amazon Polly | AWS (Amazon)         * 多言語 (下記表参照)
    • AWS(Amazon Web Service)のサービスの一つ
      AWSはAmazonの提供するWebサービス群の総称

      ⚠︎要AWSアカウント,要login
  • Text to Speech | Google Cloud (Google)     * 多言語 (下記表参照)
    • Google Cloud Platform が提供するサービスのひとつ
  • Text to Speech | Azure (Microsoft)        * 多言語 (下記表参照)
    • Microsoft Azureが提供するサービスの一つ
      Speech Servicesに含まれる
  • Watson Text to Speech | (IBM)          * 多言語 (下記表参照)
    • IBM Cloudが提供するサービスの一つ

  

▼ onlineウェブサービス

  • CoeFont > CoeFontを使う       * 日本語 / 英語 / スペイン語 / 中国語 / フランス語

    • いつの間にか多言語対応 (追記@2023/12/05):
      • ただし、スペイン語とフランス語はメニューにはあるが「検索結果が見つかりませんでした」と出る
    • サイト自体の対応言語:Ja / En
    • 要loginだがGoogleアカウントでloginできる
    • 作成された音声データの商用利用可能(すべてのプランで)
    • 音声の使用にはクレジット表記必須:「Voiced by CoeFont.CLOUD」
       例)投稿動画のナレーションに使用したときなど
    • 作成された音声データは
      →Audio保存可
      →各種調整:簡単にできる【音量/スピード/アクセント/抑揚など】
  • NaturalReader > online (NaturalSoft Ltd.)       * 多言語、日本語は無い

    • サイト自体の言語:En
  • VocalWare > Demo (VocalWare)           * 言語、日本語もある

    • サイト自体の言語:Ja,En,else...
  • テキスト読み上げリーダー (TextFromToSpeech)    * 多言語、日本語もある

    • サイト自体の言語:Ja,En,else...

  

▼ フリーソフト

  • VOICEVOX                     * 日本語のみ
    • ヨミ:ボイスボックス
    • 対応OS:Win / Mac / Linux
    • 作成された音声データは
      →Audio保存可
      →各種調整:簡単にできる【アクセント/イントネーション】
  • COEIROINK                     * 日本語のみ
    • ヨミ:コエイロインク
    • 対応OS:Win (Win7 非対応) / Mac
    • 作成された音声データは
      →Audio保存可
      →各種調整:簡単にできる【アクセント】
  • TALQu                       * 日本語のみ
    • ヨミ:トーク
    • 対応OS:Winのみ (CPU版、GPU版)
    • 作成された音声データは
      →Audio保存可
      →各種調整:簡単にできる【話速/声の高さ/声色の高さ】
組み込みタイプのFreeソフト (2コ)
1. Opne JTalk (Freeソフト)               * Ja
2. espeak (Freeソフト)                * En1種のみ(男性声)

≪参考_インストール手順≫
macでコードから音声を喋らせる (eSpeak, OpenJTalk)
https://qiita.com/msrks/items/4015ea03760cc28b7374

- - - - - open/hide END - - - - - -

  

▼ 有料ソフト,有料WebAPI

※この章は2022/11/30に追加

  • AITalk®                       * 多言語対応[日本語(18話者)]
    • ヨミ:エーアイトーク
    • 各種機能【自由文音声(TTSのこと)、単語登録、感情表現(喜/怒/哀/楽)】
    • 調整項目【話速、イントネーション、音高】
    • 対応OS:Winのみ 
      • Macは対象外(※仮想環境上でのご利用は製品のサポート対象外)
    • AITalk® シリーズ製品:法人向けと個人向けがある
AITalk® シリーズ製品(いっぱい):個人向け * A.I.VOICE * AITalkシリーズ * かんたん!AITalk®5 * かんたん!アフレコ * かんたん!AITalk®3 * かんたん!AITalk®Ⅱ Plus * AITalk® あなたの声®

---open/hide--ココまで

AITalk® シリーズ製品(いっぱい):法人向け
* AITalk® WebAPI [AICloud]:WEBサービス等で手軽に音声合成を組み込める * 提供形態:クラウド / API / SaaS * 料金プラン:3種 * ミニプラン [基本料金:5,000円/月(税別)] * ベーシックプラン [基本料金:5,000円/月(税別)] * プレミアムプラン [問い合わせ] * 作成された音声データは ※ベーシックプラン以上に加入中なら)
→Audio保存可
→各種調整:簡単にできる【音量、話速、ピッチ、抑揚、ポーズ長】 * AITalk® 声の職人® [AICloud]:「AITalk® 声の職人S」のWebブラウザ上で利用できるクラウド版 * 提供形態:クラウド / API / SaaS * AITalk® 声プラス®:PowerPoint®アドインソフト * 提供形態:PCインストール * PowerPoint®のスライドに簡単に音声をプラスできる * AITalk® SDK:Windows/Linuxソフトウェア開発キット *提供形態:ライブラリ(dll、so) * AITalk® Server:音声読み上げソフト、サーバー設置型音声合成エンジン * インターネットサービスなど、ネットワークを利用し、マルチタスクで合成処理を行う場合に最適 * AITalk® micro:組み込み式の小型音声合成ソフトウェア開発キッド * 提供形態:ライブラリ(dll、so) * Android・iOSに対応 * AITalk® CustomVoice®:有名人もしくは自分の声を収録して音声合成を作成できるサービス * 提供形態:スタジオ収録 * AITalk international®:41の国の言語の音声合成に対応したソフト * 提供形態:PCインストール * AITalk 声の職人S:日本語ナレーション作成 * 提供形態:PCインストール * 対応OS:Winのみ * AITalk® Web読み職人 [AICloud]:ホームページ(webページ)の内容を読み上げるサービス * 提供形態:クラウド / API / SaaS * VOITER:AIライティングレコーダー * 提供形態:AIライティングレコーダー端末 ---open/hide--ココまで

  

■概要

▼ WEB API 概要

TTS -WEB- 1ヶ月あたり無料枠 その他、無料枠超過分etc
🔵VoiceText
VoiceText
(HOYA)
*無料API
#日本語 話者6人
emotionで感情表現対応
(普・)喜・怒・哀

+ 結局最も自然な声(高品質)
🟪CoeFont
CoeFont
(CoeFont)
*API
#日本語 話者3000種以上
*SSML未対応
+ 圧倒的話者数(子どもの声もある)
+ 各種調整可(SSML相応 or more)
+ 抑揚や話し方の癖が多様(話者しだい)

▲ 単語やイントネーションがちょいちょい不自然…
▲品質は話者しだい


*1万字あたり:¥500〜¥1000
*100万字あたり:¥5万〜¥100万
🔵Amazon Polly
Amazon Polly
AWS(Amazon)
〜500万字まで無料/最初の12ヶ月
*12ヶ月以降は有料
#日本語 話者2人(男女1人ずつ)
*SSML対応
+ 生成した音声はキャッシュすることができ、追加料金なしで再生可
+ 視聴&保存だけなら管理画面でサクッと可能

*100万字あたり:$4.00 (標準音声)
*100万字あたり:$16.00 (ニューラル)
🔵Google Cloud
Text-to-Speech
(Google Cloud)
〜400万 (標準音声)
〜100万 (WABEnet) まで無料

#日本語 話者8人
*SSML対応
✖︎ 話者名が分かりずらい
*100万字あたり:$4.00 (標準音声)
*100万字あたり:$16.00 (WABEnet)
🔵(Microsoft Azure
Text-to-Speech
(Microsoft Azure)
〜5万文字 (Standard音声)
〜0.5万文字 (ニューラル) まで無料

#日本語 話者2人
*SSML対応
無料枠超過分:?どこに記載がある?
🔵
Watson Text-to-Speech
(IBM)
〜1万文字まで無料 (ライトプラン)
*非アクティブで30日後に削除
#日本語 話者2人
✖︎ ちょっと不自然…

補足@VoiceText:
2020年5月:名称変更「VoiceText」→「ReadSpeaker」
…製品版「ReadSpeaker」が出来て、VoiceTextは無料API化? =詳細未確認=

▼ onlineウェブサービス 概要

TTS -online- 無料 有料 その他
CoeFont
(CoeFont)
無料の話者(≒声種)を選べば無料


(1文字あたり0pt)
有料の話者(≒声種)を選べば有料


(1文字あたり5pt〜10pt)
*SSML未対応
調整可能option: 音量,読み方・アクセント,スピード など

※日本語 / 英語 / スペイン語 / 中国語 / フランス語
NaturalReader > online
(NaturalSoft Ltd.)
無料版
・フリーボイス:無制限
・プレミアムボイス:1日20分
有料版:
プレミアム/プラス
MP3保存可(100万文字/月)※話者によっては不可
*SSML未対応
使用可能option1つ:volume

※日本語未対応
Vocalware as Demoページ *SSML対応
テキスト読み上げリーダー
(TextFromToSpeech)
*読み上げだけなら無料
*音声の保存は有料(重量課金) ※要サインアップ *SSML未対応
使用可能option3つ:speed,pitch,voleme

補足info @CoeFont
CoeFontでは “ポイント”を使用して音声を生成
ポイントは月々付与される=もらえる(加入プランによって付与されるpt数が異なる)
CoeFontの使用ポイントは1文字あたり 5pt (0.05円)~ 10pt(0.1円) など
+ 圧倒的話者数(子どもの声もある)

  • 各種調整可(SSML相応 or more) →(下記画像参照)
    ▲ 抑揚や話し方の癖が多様(話者しだい)
    ▲ 単語やイントネーションがちょいちょい不自然… 
    調整で挽回可(下記画像参照)
    CoeFont:生成された音声の、音量,スピード,読み方・アクセントなどを調整

補足info @NaturalReader
※読み上げ音声のoptionはvolume(音量)のみだが、下記がSettingから設定可:

  • dark mode (on/off)    ダークモード
  • Dyslexia Font (on/off)   失読症フォント
  • Volume (単位:%)     音量
  • Word Highlight (on/off)   単語の強調 リアルタイムで読んでいるヶ所ハイライト
  • Reading Settings     読み上げ設定 ※カッコ囲みの文字スキップon/off、URLのスキップon/off

▼ フリーソフト 概要

TTS -software- 対応OS 初期CV数 自作CV の 可否
ソフト名 ソフトDL時 自分の声でCV作成
🟣VOICEVOX
VOICEVOX
Win / Mac / Linux
※WinはCPU版、GPU版
12 ※1 未対応?
🟣COEIROINK
COEIROINK
Win (Win7 非対応) / Mac 1 ※2 対応
🟣TALQu※3
TALQu
Winのみ (CPU版、GPU版) =未確認= (※3) 可能

補足Info
※1…CVによっては複数スタイル(4〜5)
※2…ダウンロード時は1つのCV1つのスタイル 「つくよみちゃん(れいせい)」 のみ
※3…Win環境ないので未確認

  

▼ WEB API サービス開始時期

TTS -WEB- 【1】サービス開始時期、【2】音質向上時期、【3】その他
🔵VoiceText
VoiceText (HOYA)
【3】2020年:名称変更「VoiceText」→「ReadSpeaker」
【2】2012年:表現力を向上、感情表現
【2】2005年:読みの自然さが大幅に向上
【1】2004年:初の日本語音声合成が誕生(現在は販売終了)
🟪CoeFont
CoeFont (CoeFont)
【3】2022年1月1日:「CoeFont」に統合&変更
【1】2021年7月28日:「CoeFont CLOUD」正式リリース
【1】2021年4月23日:「CoeFont STUDIO」公開 (※1)
🔵Amazon Polly
Amazon Polly AWS(Amazon)
【2】2020年09月:日本語のニューラル音声使用可能
【1】2016年11月30日:Amazon Polly 開発者ガイドの最初のリリース
🔵Google Cloud
TTS (google)
【2】2018年07月:日本語のWaveNet音声使用可能
【1】2017年11月: Cloud Text-to-Speech API Alpha版リリース
🔵(Microsoft Azure
TTS (Azure)
=リリースノートがどこにあるか分からん=
🔵
Watson TTS (IBM)
【2】2019年07月:日本語のニューラル音声使用可能
【1】2015年07月:ベータから一般出荷版 (GA) に移行

補足@CoeFont
 ※1:この頃から WEB API があったかどうかは未確認

補足@VoiceText:
2020年5月:名称変更「VoiceText」→「ReadSpeaker」
…製品版「ReadSpeaker」が出来て、VoiceTextは無料API化? =詳細未確認=

  

組み込みタイプのFreeソフト 概要 (2コ) (clickして展開)
音響モデル:「**.htsvoice」というファイル (**部はそれぞれの名前)
TTS 備考1 個人的感想・印象
OpenJTalk #音響モデルで話者変更可
*不自然さは音響モデルによりピンキリ
音響モデル「*.htsvoice」 (註1)
✖︎ 喋りが不自然・・・!
* 個人的には許容できない

(註2)
espeak * 男性声のみ
* ターミナル.appからもしくはpythonから
*すごく無機質な感じ

(註1)デフォルト的な「....m100.htsvoice」という男性声の分(ファイル名長いので前の方は略)がなんとかマシな程度...
音響モデルはいくつか配布されてるが、正直ピンキリで、喋りとして不自然なばかりか、オカシすぎて聞きづらい品質のものが多い
(註2)YouTubeの“実況”や“ナレーション”で聴いたことあるアノ感じ
おそらくOpenJTalkのとある音響モデル

  • 音響モデル:キャラクターボイス(CV)名のようなものか開発コードネームのようなもの
  • UTAU音源の音響モデルもある、ファイル名のCV部が日本語(全角)
    • 試した時はファイル名にスペースあると (CV部の氏名の間に半角スペース) NGだったのでそういう場合はスペースをとるなり「-(ハイフン)」や「_(アンダーバー)」に変更するなりした方が良さげ

- - - - - open/hide END - - - - - -

 

■デモページ

▼ WEB API デモページ

🌀 使用できる話者(日本語)と共通の文章での再生結果
「➡︎リンク先」は 用意されてるtext欄に入力した文章で視聴できるページ ※2021/03/06現在
※話者名で濃い色…良かった分(個人的判定)
#日本語 話者-デモで聴ける話者人数- / -APIで使用できる話者人数-

TTS -WAB- 視聴できるページでの話者一覧
& 第一印象など
「名前はまだない。」
「名前はまだ無い。」ほか、表下の補足info参照
TTS名称
(企業名etc)
なまえ,性別(年齢): 印象
#ref. above
上記の違い有り/無し
- - -
「各text」:自然さの○△✖︎評価
🔵VoiceText
➡️VoiceText
(HOYA)
hikari,女性(21):
haruka,女子(?):
takeru,男性(21):
show,男性(40):
#日本語 話者4人 / API 6人
違い無し
- - -
「SSML」:○
「音声合成マークアップ言語」:○
🟪CoeFont

➡️CoeFont (CoeFont)
アナウンサー,女性(?):
男性声優,男性(?):
男性声優(喜),男性(?):
男性声優(怒),男性(?):
男性声優(哀),男性(?):
男性声優(楽),男性(?):
#日本語 話者6種 / 3000種以上
違いなし
- - -
「SSML」:✖︎
「音声合成マークアップ言語」:✖︎
- - -
※ただしloginして使用するなら、こういったことは調整で挽回可能(上記既出画像参照)
🔵Amazon Polly
➡️Amazon Polly
AWS(Amazon)

⚠︎要AWSアカウント,要login
Mizuki,女性(?): 喋り方やや老け?
Takumi(?):,男性(40): 良さげ
#日本語 話者2人 / API 2人
違い無し ≪ただし余計な間≫
├「名前は...まだ無い。」△
└「名前は...まだない。」△
- - -
「SSML」:○
「音声合成マークアップ言語」:○
🔵Google Cloud
➡️Text-to-Speech
(Google Cloud)
ja-JP-Wavenet A,女性(?): イマイチ
ja-JP-Wavenet B,女性(?): 落ち着いた○
ja-JP-Wavenet-C,男性(?): 良さげ
ja-JP-Wavenet-D,男性(?): 良い○
#日本語 話者4人 / API 8人
違い無し
- - -
「SSML」:○
「音声合成マークアップ言語」:○
🔵Microsoft Azure
➡️Text-to-Speech
(Microsoft Azure)
Nanami (Nural) - 七海,女性(?): ○
Keita (Nural) - 圭太,男性(?): 老け○
Ayumi - あゆみ,女性(?): △✖︎
Haruka - 春香,女性(?): △✖︎
Ichiro - 一郎,男性(?): 老け
#日本語 話者5人 / API 2人
違いほぼ無し
- - -
* 「吾輩は猫である」Keitaのみやや違う
ニューラル以外は✖︎(イントネーションがオカシイ)
- - -
「SSML」:✖︎
「音声合成マークアップ言語」:✖︎
🔵IBM Watson
➡️Watson Text-to-Speech
(IBM)
Emi,女性(?): △✖︎
#日本語 話者1人 / API 1人
違いあり
├「名前は/まだ/ない。」✖︎オカシイ
└「名前はまだ無い。」○

- - -
「SSML」:✖︎
「音声合成マークアップ言語」:✖︎

- - -
* 違いありなしの前に、色々イントネーションがおかしいヶ所多い
* 喋り出すまでが時間かかる

補足info
※「まだ無い」or「まだない」…ひらがな or 漢字の場合で読みに違いが出るかどうか
※「SSML」はアルファベットの読み…『エスエスエムエル』と自然に読めるか
※「音声合成マークアップ言語」…これで“ひとまとまり”として読めるかどうか
  日本語は複合名詞の場合 単語ごとのイントネーションだか高低感だかが異なる
  単に 名詞名詞 と単語を羅列するのとは違うイントネーションになるという規則性

 

補足info: VoiceTextアイコン x emotion別 (clickして展開)
🌀 VoiceText emotion別 & ReadSperker声優事務所版アイコン (無料APIは🆓マーク)
name (age)

@声優事務所  
hikari (21)

🆓
normal
hikari_normal
happiness
hikari_happy
saddnes
hikari_sad
anger
hikari_anger
asヒカリ
asヒカリ
haruka (?)

🆓
normal
haruka_normal
happiness
haruka_happy
saddness
haruka_sad 
anger
haruka_anger 
show (40)

🆓
ー 
takeru (21)

🆓
narmal
takeru_narmal
happiness
takeru_happy
saddness
takeru_sad 
anger
takeru_anger 
asタケル
asタケル
santa(?)
老年

🆓
normal happiness saddness anger
bear(?)
凶暴なクマ

🆓
normal happiness saddness anger

- - - - - open/hide END - - - - - -

  

▼ onlienウェブサービス デモページ

「➡︎リンク先」は 用意されてるtext欄に入力した文章で視聴できるページ

TTS -online- 視聴できるページでの話者一覧
& 第一印象など
「名前はまだない。」
「名前はまだ無い。」ほか
TTS名称
(企業名etc)
なまえ,性別(年齢): 印象
#ref. above
上記の違い有り/無し
- - -
「各text」:自然さの○△✖︎評価
🟪CoeFont

➡️CoeFont (CoeFont)
アナウンサー,女性(?):
男性声優,男性(?):
男性声優(喜),男性(?):
男性声優(怒),男性(?):
男性声優(哀),男性(?):
男性声優(楽),男性(?):
#日本語 話者6種 / 3000種以上
違いなし
- - -
「SSML」:✖︎
「音声合成マークアップ言語」:✖︎
- - -
※ただしloginして使用するなら、こういったことは調整で挽回可能(上記既出画像参照)
➡︎NaturalReader > online
(NaturalSoft Ltd.)
-日本語未対応-
#日本語 話者0
➡︎Vocalware > Demo Haruka,女子:VoiceText
Hikari,女性:VoiceText
Himari,女性 :△✖︎
Kaito,男性:○△
Misaki,女性:△✖︎
Ryo,男性:ReadSpeaker
Sayaka,女性:ReadSpeaker
Show,男性:VoiceText
Takeru,男性:VoiceText
(註1)
#日本語 話者9人
*VoiceText,ReadSpeakerのキャラはそれぞれの発声と同等
Himari:違いあり →(註2)
Kaito:違いあり
Misaki:違い無し
- - -
*Himariの場合イントネーションがオカシイ
*Misaki「まだない」部分が速い
➡︎テキスト読み上げリーダー
(TextFromToSpeech)
Kyoko,女性(?): ○
日本語,女性(?): △✖︎

#日本語 話者2人
Kyoko:違い無し
日本語:違いあり →(註2)
- - -
*日本語の場合イントネーションがオカシイ

補足info
(註1)「NaturalReader > online」は9名中6名分がVoiceText,ReadSpeakerの話者、…じゃない?
(註2)同じ話者:「Vocalware > Demo」の Himari = 「テキスト読み上げリーダー」の日本語
※「Vocalware > Demo」の Kaitoが“どこの or 何の or 誰”だか知ってる方はご一報いただけるとウレシイです
※「Vocalware > Demo」ははじめChromeだと再生出来ない、
 が、一旦他のブラウザ-試したのはSafari-で再生させた後、
 Chromeを再読み込みするとなぜか再生できるようになった…

▼ フリーソフト デモ結果

🌀VOICEVOXとCOEIROINKで「話者」は「キャラクター」なのでそれに準じている
1キャラで複数スタイル(≒声種)持つものもある 複数ある場合のみ<3>など表記
# 総キャラ数

TTS -software- キャラクター一覧
& 第一印象など
「名前はまだない。」
「名前はまだ無い。」ほか
TTS名称
(ソフト名)
なまえ,性別(年齢): 印象
#ref. above
上記の違い有り/無し
- - -
「各text」:自然さの○△✖︎評価
🟣VOICEVOX
VOICEVOX
四国めたん,女性<4>
ずんだもん,女性<5>
春日部つむぎ,女性
雨晴はう,女性
波音リツ,女性:UTAUでお馴染み
玄野武宏,男性
白上虎太郎,男性
青山龍星,男性
冥鳴ひまり,女性
九州そら,女性<5>
もち子さん,女性
剣崎雌雄,男性
#12人
違いなし
- - -
「SSML」:△〜✖️
「音声合成マークアップ言語」:△〜✖️
- - -
※キャラクター(CV)・スタイル(声種)によって変動
※ただし調声(アクセント、長さ、イントネーション)
🟣COEIROINK
COEIROINK
つくよみちゃん,女性
MANA,女子
おふとんP,男性
ディアちゃん,女性
アルマちゃん,女性
#5人
※上記は公式音声リスト
※この他にもMYCOEIROINKとして配布されてる音声モデル多数あり
違いなし
- - -
「SSML」:△〜◌
「音声合成マークアップ言語」:△〜◌
- - -
※キャラクター(CV)・スタイル(声種)によって変動
※全体的にVOICEVOXより自然な印象(複合名詞らしさ)
🟣TALQu※3
TALQu

補足info
※「まだ無い」or「まだない」…ひらがな or 漢字の場合で読みに違いが出るかどうか
※「SSML」はアルファベットの読み…『エスエスエムエル』と自然に読めるか
※「音声合成マークアップ言語」…これで“ひとまとまり”として読めるかどうか
  日本語は複合名詞の場合 単語ごとのイントネーションだか高低感だかが異なる
  単に 名詞名詞 と単語を羅列するのとは違うイントネーションになるという規則性

※3…Win環境ないので未確認

  

組み込みタイプのFreeソフト デモページ(聴けるページ:2ページ) (clickして展開)

デモページ/onlineサービス(どちらも最大200文字)
どちらもOpenJTalkの音声デモ

ページ名 話者 コントロールできる項目
公式デモページ

OpenJTalk
6種:実質2人(Meiが感情別)
M001(男性):最もマシ
Mei_normal::通常
Mei_happy::嬉
Mei_bashful::恥 (シャイ)
Mei_angry::怒
Mei_sad::哀
※公式のほうが設定できる項目少ない...
声質:-0.8〜0.8, 標準:0.55
ピッチシフト:-24〜24, 標準:0
話速:-0.5〜2.0, 標準:1.0
CMANのツールページ

by OpenJTalk
2種:実質2人
男性の声
女性の声
※すべてに"標準(0)"がある
声質:11段階 低い遅い(-5)〜高い早い (+5)
速度:11段階 遅い(-5)〜早い(+5)
高低:11段階 低い(-5)〜高い(+5)
絞り:11段階 低く絞る(-5)〜高く絞る(+5)
平坦:6段階 平坦(+1)〜平坦(+5)
(none)

by espeak
あったら教えてください

補足info:CMANの
※声質…(略)
※速度…(略)
※高低…機械的な高低変更のような感じ、これせいぜい[-2]とか[+1]とかの範囲
   ・加工の雰囲気が「プライバシー保護のため音声を変えてあります」みたいな感じ
   ・[-3]〜[-5]、[+3]〜[+5]はノイズがひどい
※絞り…声色を変えての高低感みたいな感じ、使用に耐えうるのは[-2]〜[0]〜[+2]の範囲
   ・本人が声色をわざと変えて喋ってるみたいな感じ、「-(マイナス)」でも「+(プラス)」でも数字が大きくなると破綻する感じ
   ・[-3]〜[-5]はノイズというか“ゴロゴロ”しだす
   ・[+3]〜[+5]は[+3]あたりだと(男性声だと)ミッキーマウスの声(!)みたいな感じ
※平坦…よく違いが分からん、が、+4、+5 だとノイズがひどい

- - - - - open/hide END - - - - - -

  

■「林檎、ジュース。」「林檎ジュース。」

🌀 各パターンの読みが『名詞名詞』の羅列の発声か、ひとまとまりの『複合名詞』としての発声か。

発声が複合名詞となるパターン検証 @2021/03/06現在
※追記@2021/12/25:「林檎 ジュース」(全角スペース)の場合も半角スペースの欄に記載(Amazon Polly AWS(Amazon)以外)
※CoeFontのみ「林檎」だと読みがオカシかったので「りんご」で検証 @2021/12/25現在)

TTS 「林檎、ジュース。」 「林檎・ジュース。」
(※ドット)
「林檎 ジュース。」
(半角スペース)
「林檎ジュース。」
🔵VoiceText
VoiceText (HOYA)
「。」なし改行だと続いてしまう

➡️VoiceText
(HOYA)
それぞれの名詞 複合名詞 それぞれの名詞

※全角スペースでもそれぞれの名詞
複合名詞
🔵CoeFont
CoeFont(CoeFont)
「。」なし改行、区切りとして反映

➡️CoeFont (CoeFont)
それぞれの名詞 それぞれの名詞 複合名詞

※全角スペースでも複合名詞

複合名詞
🔵Amazon Polly
Amazon Polly AWS(Amazon)
「。」なし改行だと続いてしまう

➡️Amazon Polly
AWS(Amazon)

⚠︎要AWSアカウント,要login
それぞれの名詞 それぞれの名詞 複合名詞

※全角スペースの場合=未検証
複合名詞
🔵Google Cloud
TTS (Cloud google)
「。」なし改行だと続いてしまう

➡️Text-to-Speech
(Google Cloud)
それぞれの名詞 それぞれの名詞 それぞれの名詞
複合名詞

※全角スペースでも複合名詞
複合名詞
🔵Microsoft Azure
TTS (Azure)
「。」なし改行、区切りとして反映

➡️Text-to-Speech
(Microsoft Azure)
それぞれの名詞 「。(句点)」で続けて1行:
 複合名詞
「。(句点)」で改行:
 複合名詞? *ビミョー
句点ナシ改行:
 複合名詞? *ビミョー
「。(句点)」で続けて1行:
 複合名詞
「。(句点)」で改行:
 複合名詞? *ビミョー
句点ナシ改行:
 複合名詞? *ビミョー


※全角スペースだと「はやし/ごジュース」
「。(句点)」で続けて1行:
 複合名詞
「。(句点)」で改行:
 複合名詞? *ビミョー
句点ナシ改行:
 複合名詞? *ビミョー
🔵IBM Watson
Watson TTS (IBM)
「。」なし改行だと続いてしまう

➡️Watson Text-to-Speech
(IBM)
それぞれの名詞 それぞれの名詞 それぞれの名詞

※全角スペースでもそれぞれの名詞
複合名詞
🟣VOICEVOX
VOICEVOX
それぞれの名詞 それぞれの名詞 それぞれの名詞

※全角スペースでも複合名詞
複合名詞
🟣COEIROINK
COEIROINK
それぞれの名詞 それぞれの名詞 それぞれの名詞

※全角スペースでも複合名詞
複合名詞
🟣TALQu
TALQu

補足info1:TALQu についてはWin環境ないので未確認

補足info2-1:VOICEVOX 「それぞれの名詞」
VOICEVOXでは、上記結果のとおり「それぞれの名詞」といえど、(下記の補足info3での) 1行に書いたpatarn1の1番目「林檎、ジュース」と、2番目以降「林檎・ジュース。」以下と、patarn2-1の「林檎、ジュース」、patarn2-2の「林檎・ジュース。」以下とではそれぞれ2番目以降の発音に違いあり。

VOICEVOXでpatarn1での書き方でそれぞれの名詞として自然な発音だと感じるのは1番目の組み合わせのみ。

具体的には2番目以降は「イントネーション」が違う。「林檎」部のイントネーション...。ちなみにpatarn2-2〜patarn2-4ではすべて自然な発音だと感じる。

補足info2-2:COEIROINK 「それぞれの名詞」
COEIROINKでは、「それぞれの名詞」はpatarn1でも、patarn2-1〜patarn2-4でも発音に違いあまりなく、自然な発音だと感じられる。
このあたりもVOICEVOXとは音声合成エンジンのアルゴリズムが別だという表れと思われる。

補足info3 テキスト入力欄 羅列パターン:3種
※上記表で『「。」なし改行だと続いてしまう』とあるのは下記でいう 3 の場合

どのサービスにおいても共通して安全策と言えるのは、単語や文章の区切りには「、(読点)」か「。(句点)」をつけることと、行の終わり(改行前)に「。(句点)」をつけること。 (というか3の書き方は上記理由によりキケン)

1. 基本的に「。(句点)」で1行で羅列か

patarn1〜テキスト入力欄〜
林檎、ジュース。林檎・ジュース。林檎 ジュース。林檎ジュース。

    
2. 「。(句点)」で改行で羅列か

patarn2〜テキスト入力欄〜
林檎、ジュース。
林檎・ジュース。
林檎 ジュース。
林檎ジュース。

  
3. 「。(句点)」なし改行で羅列か

patarn3〜テキスト入力欄〜
林檎、ジュース
林檎・ジュース
林檎 ジュース
林檎ジュース

『3. 「。(句点)」なし改行で羅列かの書き方について: 
”林檎”と”ジュース”のあいだの“間”がどれくらいかの発声を確認してたのに、この書き方だと 例えば1行目と2行目の(当然区切りがあると思っていた)“間”がなく、すべての 行と行 の間がなく「続いてしまう」という不測の事態になる (例:1行目最後と2行最初の単語間の“間”がない)

  

* 参考リンク (専門用語)

🌀 単語(専門用語)の概念や意味などについては参考になったページ (@2021年3月現在)
・大手APIリファレンス類の字ばっかりなページより平易で分かりやすい≒より一般向けな感じ
・あるいは自分が検索した時の上位ページ:エンジニア向けメディア, AI専門メディア

【オトナリ】 音声合成ソフトをまとめました (2022/11/29追加)
※このリンク先はオススメ。あちこち検索かける位ならここだけでOK、ここの各メニュー記事でTTS関連をだいたい網羅と言って過言はない。難しすぎないのも良き(TTSなど専門用語の略語が少なめ)。

音声合成ができる製品一覧|音声合成ソフトの利用例|音声合成ソフトと業界|音声合成ソフトの基礎知識|音声合成の悩みについて
https://www.soft-voicesynthesis.com/

  

ReadSpeaker:VoiceTextのバージョンアップ・製品版(有料)

多言語・感情表現など多彩なバリエーション
カスタマイズ可能なAIテクノロジー
https://readspeaker.jp/

※「音声合成の俳優事務所(2022/11/29追加)」はおすすめ。メニューの「Feature」の各記事でttsや音声合成処理の仕組みなどwith図説。難しすぎないのも良き。

   
VoiceText:ReadSpeakerのバージョンアップ前(無料)

Webに声を、感情を。
高品質な音声合成VoiceTextが、簡単に使えるWeb APIに
https://cloud.voicetext.jp/webapi

  
ログミーTech

「DNN-HMM」から「End-to-End」へ LINEが取り組む音声認識のしくみ
End-to-End音声認識の概要とプロダクト化への課題 #1/2
Tokyo BISH bash・2020.11.16
https://logmi.jp/tech/articles/323498

  
AINOW

今さら聞けない「自然言語処理(NLP)」とは? [2019.04.22]
https://ainow.ai/natural_language_processing/

初心者でもわかるディープラーニング ー 基礎知識からAIとの違い、導入プロセスまで細かく解説 [2019.08.06]
https://ainow.ai/2019/08/06/174245/

機械学習をどこよりもわかりやすく解説! 教師ありなし学習・強化学習だけでなく5つのアルゴリズムも完全理解! [2019.11.26]
https://ainow.ai/2019/11/26/180809/

16
9
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
9