ディープラーニング声質変換OSS「誰でも好きなキャラの声になれる」レポジトリ become-yukarinなどの関連記事等一覧


はじめに

ヒホさん開発のディープラーニング声質変換OSSである「誰でも好きなキャラになれる」レポジトリ become-yukarinの記事をまとめました。今後の声質変換ライフに生かしていただければ幸いです。


環境構築について


グーグルコラボラトリーでお手軽実行(第一段のみ)

WindowsでGPUがなくても12時間までGPUの機械学習環境が無料で使えるグーグルコラボラトリーで第一段の声質変換の学習や実行ができます。

GPUがなくても、Google Colaboratory で結月ゆかりの声になりたい


UbuntuとGPUで本格的に学習や実行するための環境構築

become-yukarinの学習や実行に必要なUbuntu他の環境構築は以下の記事が参考になります。

「ディープラーニングの力で結月ゆかりの声になる」ためのLinux環境構築(RTX対応)【Ubuntu 19.04】

「ディープラーニングの力で結月ゆかりの声になる」環境構築【Ubuntu Server v18.10】]

【Quick Start】ディープラーニングで結月ゆかりの声になる on Ubuntu18.04

「ディープラーニングの力で結月ゆかりの声になる」ためのLinux環境構築【Ubuntu 17.10】

初めての「誰でも好きなキャラの声になれる」ディープラーニング声質変換環境構築【Ubuntu 18.04LTS】


学習方法や実行について

become-yukarinの基礎知識と学習方法や実行方法です。

最近、学習第一段階の機能向上版である誰でも好きなキャラになれるリポジトリ yukarinがヒホさんにより公開されました。

「ディープラーニングの力で結月ゆかりの声になる」ための基礎知識とコマンド操作


性能向上について

第一段階・第二段階の性能向上の実験レポートはこちらです。

「ディープラーニングの力で結月ゆかりの声になる」ための第1段の高音質化

『ディープラーニングの力で結月ゆかりの声になるリポジトリ』のパラメータチューニング(第一段階編)

『ディープラーニングの力で結月ゆかりの声になるリポジトリ』の性能アップ (音質+速度)


リアルタイム声質変換について(暫定)

become-yukarinのipynbブランチを利用したリアルタイム声質変換の実験はこちらです。最近ヒホさんがリアルタイム声質変換ライブラリを大幅にバージョンアップしてディープラーニング声質変換を使って、リアルタイムで声質変換する realtime-yukarinを完成し公開されました。

『ディープラーニングの力で結月ゆかりの声になるリポジトリ』の ipynb ブランチのリアルタイム変換サンプル


become-yukarinの応用例


become-yukarinのdockerイメージ作成

become-yukarinを使ってキズナアイ*1になってみた人の作成したdockerイメージ

GitHub

変換結果

*1キズナアイはVtuberである。


become-yukarinを参考に声質変換したもの

※コードは別なようです。

できるだけ楽に結月ゆかりになりたい


become-yukarinの学生レポート

はこだて未来大学の学生の濱口さんが実習でbecome-yukarinを使って茜ちゃん*1になったレポート。

プロジェクト報告書(グループ)

プロジェクト報告書(個人)

ポスター

Github

*1 琴葉茜は企画開発元AI発売元AHSの音声合成ソフトウェアのキャラクターである。


ヒホさんのブログ

声優統計コーパスをアライメントしてみる

DeepLearningでも声質変換したい!

Chainerを使った研究開発時のクラス設計

ディープラーニングの力で結月ゆかりの声になってみた

CycleGANノンパラレル結月ゆかり声質変換やってみた

CREPE(A Convolutional REpresentation for Pitch Estimation)使ってみた

ディープラーニングの力で人工知能になって結月ゆかりと会話してみた

「結月ゆかり」とお喋りできるイベントの舞台裏


ヒホさんのツイッター

※質問はヒホさんのGithubのissueに飛ばしてほしいとのことです。


ヒホさんのGithub

誰でも好きなキャラの声になれるリポジトリ become-yukarin

誰でも好きなキャラの声になれるリポジトリ yukarin

ディープラーニング声質変換を使って、リアルタイムで声質変換する realtime-yukarin


ヒホさんのニコニコ生放送コミュニティ ヒホの開発最前線

毎日夜23時過ぎから1時間ほどプログラミング生放送をされています。


ヒホさんのQiita

ディープラーニングを使って自分を模した人工知能を作って会話してみた


become-yukarinの研究

廣芝さんたちがbecome-yukarinについて研究して論文を出しています。解説記事もあります。

記事 変換と高精細化の2段階に分けた声質変換

記事 統計的声質変換を行うための知識と手法

日本語論文 畳込みニューラルネットワークを用いた音響特徴量変換と

スペクトログラム高精細化による声質変換


ポスター

英語論文 Two-Stage Sequence-to-Sequence Neural Voice Conversion with Low-to-High Definition Spectrogram Mapping

https://link.springer.com/chapter/10.1007/978-3-030-03748-2_16

https://www.researchgate.net/publication/328875143_Two-Stage_Sequence-to-Sequence_Neural_Voice_Conversion_with_Low-to-High_Definition_Spectrogram_Mapping


ニコニコ動画やYoutubeの関連動画(一部)