目標
テキストと感情ベクトルからwavを合成し、wavを生成するrust製エンジン。
OSAI,IOTに統合可能。
話す、歌うを調声なしで目指す
Quick Start
rust install:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env
プロジェクトコピー:
git clone https://github.com/amyoshi-hub/Vocaloid-AI.git
cd Vocaloid-AI/vocaloid
cp -r ../vocaloid .
cargo run
実行例:
モードを選択してください: [1] emotion_vocaloid [2] vocaloid
1 //1を入力
["ikari", "tamashii", " ", "soshite"]
[[0.0, 0.0, 0.0, 0.0, 6.0, 0.0, 0.0, 6.0, 17.0, 34.0, 46.0, 23.0, 51.0, 57.0], [0.0, 0.0, 0.0, 0.0, 6.0, 0.0, 0.0, 6.0, 17.0, 34.0, 46.0, 23.0, 51.0, 57.0], [0.0, 0.0, 0.0, 0.0, 6.0, 0.0, 0.0, 6.0, 17.0, 34.0, 46.0, 23.0, 51.0, 57.0], [60.0, 5.0, 40.0, 0.0, 6.0, 0.0, 0.0, 6.0, 7.0, 4.0, 6.0, 100.0, 1.0, 57.0]]
1.0325714
1.0325714
1.0325714
1.01
結合完了: output.wav //wavが生成された
目的と特徴
- 手軽に音声を作れるものがほしいとき
- forkしやすいプロジェクト
- 調声なしのvocaloid
- IOTとの統合(いま作成中のものができたら載せます)
このメインにはvocaloidとemotion_vocaloidがあるが
特にemotionの方はOSAIのformatの14ベクトルと対応している
14ベクトルは感情で左から
うれしい| 喜び| 期待 | 安心| 驚き| 愛情| 信頼| 誇り| 羞恥| 嫉妬| 嫌悪| 興奮| 悲しい| 怒り
これにより他のホストとp2pでお互いに調整しあってIOTから正しい音声を出すためのものである
lyric.txtからデータを取っているので
単語,14VECの形ででファイルに書き込むとそれを歌ってくれる(単語はromaji)
設計について
このようにOSAIとの連携が前提で考えられている
まだ合成のコードはちゃっちい
これからの進展
- いまは単語とemotionもfileからだがもっと使いやすくする
- 単音での編集、GUIも気が向いたら実装する
そのうち更新されます
OSAIについて
qiita:OSAI-browser
連携のコードは実装中⌛
crate
https://crates.io/crates/vocaloid
なにかあればgithubかメール
ここのスレッドにお願いします
ライセンス:MIT