0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

日本語データセットで10+ヶ国語を発話するTTS開発

Last updated at Posted at 2023-11-26

韓国で開発をしている大学生です。初めて記事お作成してみます。

目次

  1. 概要
  2. 亜流雀々
  3. 本プロジェクトの開発過程
  4. 結果

概要

Japanese to Multi Language TTS - VITS (MB-iSTFT-VITS)

まず、このプロジェクトは日本語データセットで韓国語を発話できるようにするために始めたプロジェクトです。

その後、HANGULIZEプロジェクトを発見し、ミュートクリーナーにハングルのサイズを追加して10+ヶ国語を発火させることができるようになりました。 外国語を流暢に話す日本人だと感じたら、このプロジェクトは成功だと言えます。

亜流雀々

以下は、このプロジェクトに到達するために制作した亜流作です。

  • RVC-VITS (https://github.com/kdrkdrkdr/RVC-VITS)
    特徴:RVCでデータaugmentation後に学習する

    変換されたデータセットのイントネーションとキャラクターだけの特徴が生かされないイシューが発生


  • JK-VITS (https://github.com/kdrkdrkdr/JK-VITS)
    特徴:該当言語に音素変換して似た発音ができるように誘導

    似たような発音をするが正確な発音ができないイシュー発生

開発過程

  • 音素変換ツールの修正

    既存に開発されたg2pk2 の微細なエラー修正と日本語変換を含めてハングル発音に変えられるよう修正しました。 そうして作られたのがg2pk3です。 カントリーコードがなくても自分でハングルの発音に変えられる言語はg2pk3に内蔵された韓国語、日本語、英語です。
    残りのサポート言語は、Hangulizeを通じてハングルに変換され、変換されたハングルを発音表記に変換します。
    Hangulizeもこのプロジェクトに適用できる形に修正しました。
    日本語はpyopenjtalkの内部コードを修正し、私の好みに合わせてOpenJTALKクラスを修正しました。


  • KSS韓国語音声データセットで事前学習モデル学習

    KSSデータセットを選択した理由は、音素クリーナーで使用する音素をハングルの字母で処理したためです。
    計357K Stepsで事前練習を終えました。
    image.png


  • データセット前処理および事前学習モデルを利用して微調整
    JSUT日本語音声データセットのtranscriptファイルを前処理しました。
    前処理過程は日本語→カタカナ→韓国語→韓国語発音→字母分離の順です。
    image.png
    image.png

データセットの前処理後、2番で作った事前学習モデルを利用して微調整しました。
batch_size=32、sample_rate=44100で3000step学習しました。
微調整なので100Kまで学習する必要がなく、3000step以上学習する時、日本語話者からパッチムをしっかり聞くことができないからです。 ミュートクリーナーが韓国語の自毛基盤であるため、これを考慮しなければなりませんでした。


プロジェクトリンクわこちらで

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?