Kaldi-toolkitを使ってx-vectorを抽出する方法が分かりません
Kaldi-toolkitを使ってx-vectorを抽出する方法が分かりません
Kaldi Toolkitを使って、JVSコーパスの音声からx-vectorを抽出しようと試みています。
(今回の目的は、話者認識やSpeaker Diarizationではありません。)
ゴールはextract_xvector.shを実行することですので、そのUsageを見たところ、
echo "Usage: $0 <nnet-dir> <data> <xvector-dir>"
echo " e.g.: $0 exp/xvector_nnet data/train exp/xvectors_train"
と書かれていました。
そこで、Argumentとしてdataディレクトリが必要なことは分かったのですが、
「dataディレクトリ内が具体的にどうなっていればいいのか」が分からず困っています。
お力添えをお願いいたします。
ディレクトリの現状
- Kaldi toolkit インストール済み
-
学習済みモデルをダウンロードし、そのファイルをkaldi/egs/sre16下にコピペしました。
(シンボリックリンクは壊さないように注意してコピペしました)
現状、理解していること
参考にした文献: (Speaker Diarization with Kaldi)
音声(wavファイル)から直接x-vectorを抽出する訳ではなく、下準備として音声の特徴量(MFCCや、それを正規化したCMVN)を抽出する必要があることは理解しました。MFCCが何であるかについても、ざっくりとは理解しているつもりです。
ただ、この文献にある Preparing the data の項目での操作のうち、どれがx-vector抽出のためで どれが Speaker Diarization のための操作なのかは分かっていません。
ほか、自分で調べたこと
もう一つの参考にした文献によると、Introduction にある最後の文に
"If you want to prepare data which you will decode with an already existing system and an already existing language model, the "data" part is all you need to touch."
とありますので、dataディレクトリだけを弄れば十分なのではないかと予想しています。
環境
- Ubuntu 20.04 LTS
質問
dataディレクトリ下が具体的にどうなっていればいいのでしょうか?
あるいは、何か根本的な見落としがあるのでしょうか?
お力添えのほど、何卒よろしくお願いいたします。