More than 1 year has passed since last update.

私とあなたのAdvent Calendar 2022

@ryoa912(R Aruga)

音声合成AIの進化について

VITS

Last updated at 2022-11-30Posted at 2022-11-30

アドベントカレンダーへの投稿ということで

全然ガチな感じではないですが

1つネタを書いてみようかなと思います

　
今回取り上げるネタとしては、

『音声合成AI』について書いてみます

音声合成AIと呼ぶのが正しいのかよくわかっていませんが
人間の声を生成するAIとかそういう感じです

　
これまでの
音声合成AIといえば・・・

　
そう、初音ミクですね

　
初音ミクの登場により楽曲を人間が歌わなくても機械が歌ってくれる
ということでクリエイターの活動の幅を広げてくれたと言えます

（↓Thetaとコラボした際の初音ミク）

　　
そのように、合成音声により機械が歌を歌ってくれるソフトウェアを
『ボーカロイド(Vocaloid)』と言ったりします

　
また、機械が喋ってナレーションや対話を行ってくれるソフトウェアのことを
『ボイスロイド(Voiceroid)』と言ったりもします

　
今回は、こちらの『ボイスロイド』の進化について簡単に書こうかなと思っています

　
かく言う私もボイスロイドは多少なりとも使ったことがあり
柴〇さんのJava研修の課題でボイスロイドに時刻やスケジュールを喋らせるBotを作成したりしてました

　
そういったソフトウェアはあくまで決められたルール通りに
発話内容を生成して音声に出力するというAIのようなAIじゃないような・・・

　
実際に出力してみると、ちょっと不自然な発話になってしまう
不自然な発話というのは、イントネーションがおかしい、区切り位置がおかしい、漢字の読みを間違えるなど

　
それらはいちおう手直しできます

　
手直しの方法としては、
『1つの文章として正しく発話したものとして設定保存する』という手法です

　
すると、完全に同じ文章としては正しく発話してくれるものの
似た別の文章だと登録したものが効かないので毎回間違えてしまう・・・

単語ごとに設定登録もできるけど、単語の区切り位置がおかしいことが多いのであまり効果は無い・・・

　
うーん・・・
いい感じに学習してくれない・・・

これは、割と昔に作られたオンプレのソフトウェアの限界と言えるでしょう

　
そして2022年、音声合成AI、人間の声を生成するAIについてのシンギュラリティが起こったと言えるかもしれません・・・！

　
それは・・・

　　
VITSによる強化学習（Deep Learning）！

　
VITSってなんぞや・・・？？

　
という感じですが、

　
VITSの理論については、こちらの記事で詳細に説明していますのでご参照ください
https://qiita.com/zassou65535/items/00d7d5562711b89689a8
※数式が大量に出てくるので読むだけで頭がよくなった気になれます！

　
その理論を実装した1つのソフトウェアを使ってその実力を測っていきたいと思います

　
使ったソフトウェアはこちら
https://github.com/CjangCjengh/MoeGoe

　
その名も・・・

萌え声（もえごえ）

まずは適当に喋らせてみたいと思います

　
喋ってもらう内容は、こちらの記事の文頭の文章

アドベントカレンダーへの投稿ということで
全然ガチな感じではないですが
1つネタを書いてみようかなと思います。
今回取り上げるネタとしては、
『音声合成AI』について書いてみます。
音声合成AIと呼ぶのが正しいのかよくわかっていませんが、
人間の声を生成するAIとかそういう感じです。

　
これを喋ってもらいます

↓　↓　↓　↓

↑iframe埋め込みにしてみましたが、うまく音声再生プレイヤーが表示されない場合はこちら

　
いかがでしょう？

　
個別のチューニング無しでこのレベルです

　
もう少し手を加えればより人間らしい発声に近づくと思います

　
さらにやばいところは、
日本人声優の声データを学習して英語や中国語などを話せるという点・・・

　
『声優の〇〇さんの声と△△さんの声を足して2で割ったような声質で中国語で発話してもらう』
とかも可能になってきちゃうわけです

　
やばいよやばいよ・・・

　
最近では、AI絵師の台頭が目覚ましいです

　
AI絵師は、
『術式』や『詠唱』と呼ばれる文言と、元絵（元絵は無くてもOK）でいい感じのイラストを生成してくれます
イラストを生成するという大半の目的はAIにお願いすれば叶えてくれるようになりました
その進化たるや、2022年は絵師・イラストレーター業界においてもシンギュラリティが来たと言っても過言ではないかもしれません

他にも、
通訳さんがいなくてもスマホ1つあれば海外旅行も大体なんとかなってしまう
翻訳家がいなくても英語のドキュメントを即座に日本語化してくれる

そういった技術は、
AIに入力する術式をチューニングするという技術が重要になってくる時代になってきました

特定の術式を入力して、喋って欲しい内容を入力すれば、声優の〇〇さんと〇〇さんをハイブリッドしたような声で自然に喋ってくれる時代がすぐそこまで来ています
しかも、人気の日本の声優さんの声で英語・中国語・韓国語などにも対応できる

さらに、喋って欲しい内容を具体的に入力しなくても、
雰囲気だけ伝えれば欲しい結果をいい感じに得られるようになると思います
　
とはいえ声優業が完全にAIに置き換わることはないとは思います

「こういうイラストを描いて欲しい」「こういう声で〇〇と喋って欲しい」という望みは一部は叶えられても、『AIっぽさ』がどうしても残ってしまう

AIで9割出力して細かいところをマニュアルで修正するとかなり完成形に近くなります

　
　
馬による移動から車の時代が到来して、
馬のお世話をする仕事を行う人が街からいなくなりました

すると、車が大衆化して、これまで街で馬のお世話をしていた人は車の整備をする人に置き換わったのかもしれません

車と同じように、
絵を書くことや声を発することが技術の進歩により大衆化していくことで

新しい姿になっていき、よりクリエイティブな未来が訪れるような気がします

この文書が、皆さまの開発生活のいい刺激になればいいなと思います

　
いいねと思ったら👍ボタンをお願いします。

　　
こちらは、こちらのアドベントカレンダー 2022/12/02(2日目)用の記事です

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up