Help us understand the problem. What is going on with this article?

【失敗】Tacotron2を用いた日本語TTSの開発~2作品目~

Tacotron2の後継機であるMellotronが発表され、
いよいよ音声合成業界にも追い風がでてきた昨今
私は未だにTaco2を用いたTTSの開発をする

MeronはTaco2をベースにつくられているものの、
ずぶずぶの英語仕様になっている
日本語化するにはもう少し読み込んで──

──いや、
今のところ、移行は考えていない

Taco2での開発をしていた頃、
このような文をみた

「データセットのデータの量と品質が非常に重要」

概ね同意ではあるが、
あまりにも漠然としている

それ以上に答えようがないこの課題ではあるが、
クオリティがこれに左右されることは間違いない

その後、
Lentoさんのブログに出会い、私は思った

「 いくらノイズが多少あろうとも、
  データが少なかろうとも
  どうにかこうにかすれば、
  TTSは作れるのでは? 」

やってみることにした

結果

とりあえず、結果からいうとできなかった
いや、満足いくものにはならなかったというべきか

  • 使用サンプル音声: 86.12s (by librosa)

Taco2

  • 120k steps
    Screenshot_2019-11-21 TensorBoard(3).png
    Screenshot_2019-11-21 TensorBoard(2).png
    Screenshot_2019-11-21 TensorBoard.png
    Screenshot_2019-11-21 TensorBoard(1).png

  • target
    individualImage2.png

  • inference
    individualImage.png

WaveGlow

Screenshot_2019-12-03 TensorBoard.png

考察

Taco2

Taco2の推論は定性評価では問題がないように見える

前回の記事でも述べた通り、
推論出力はほど綺麗なグラデーションとなり、
これはTOA-TTSでも同様の結果を得ている

それともうひとつ、
「ノイズはあってもそこまで問題にはならない」
という前回の開発を踏まえた私の(感覚による)予想は、
このグラデーションによって消されるということで
やっぱりあんまり関係ないのではという結論に至る

Taco2の学習は121k stepsで打ち止めたが、
このまま続ければ、もう少し品質が上がる可能性もある

WaveGlow

こちらは見事に計算が発散してしまった

WaveGlowの学習はどれくらい必要なのか?
というイシューをみた記憶によると、100万は必要らしい

120k, 600kの時点で合成を試し、
ノイズは少なくなった印象を受け、計算を続行したが
このような結果となった

TOA-TTSと完全に(HP、データセット作成手順等)同条件でやってこの結果なので、
音声の質はどうやらここに影響するようだ

Taco2の推論に問題がないことを踏まえても、
合成にここまでノイズが入るのは、
音声波形生成のこのモデルに問題がある可能性が高い

どうにか、音声の再生成までは上手くいくようなモデルはつくりたい
その次に音声合成の精度を上げていく方針でもう少し足掻いてみる

追記:19/12/13

このTaco2モデルとTOA-TTSのWvGwモデルで合成をした結果、
TOAの声で正常に合成ができたことから、
やはり異常はこのWvGwモデルにあることが確定した

現在、ノイズの酷い音声を除去して
再度学習を行っている

350kステップ現在、
先に行った合成よりは評価値が高いと思われる

追記:19/12/16

サンプル音声更新
ノイズの少ないデータのみでwavglwを再度学習し、合成を行った

音声サンプル
(taco2: 121k, wavglw: 458k)

声が明瞭になったが、思っていた声と違う
TOA-TTSとほとんど大差ない声質の音声が合成された

声質を学習させる方法として、何かやり方を間違えているのかもしれない

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした