The Hidden Markov Model Toolkit (HTK)
一応軽くいっておきますとHTKとはThe Hidden Markov Model Toolkitの略で音声認識に用いられるGMM-HMMの音響モデル作成キットです。
HTKは非常に多機能なのですが、現状DNN-HMM音響モデルが出てきているためもっぱら音響特徴量作成、つまりはHCopy
が主な使用コマンドとなります。
本題
さてHCopy
を使う際に1つのwavファイルから音響特徴量作成(Log mel-scale filter bankやMFCCなど)を行うわけですがそのままでやると一つのファイルに書き出されてしまうことになります。
読み取った後に分割しても良いですが今回はファイルを分けてみましょう。
例えばサンプリング周波数が16000Hzの2秒のsample.wav
があったとしましょう。これを1秒ごとのsample_0-1.htk
とsample_1-2.htk
にするとします。
結論からいきましょう。
以下の設定ファイルを用意してください。
sample.wav[0,16000] sample_0-1.htk
sample.wav[16000,32000] sample_1-2.htk
そしてこれをsample.scp
とすると
HCopy *** -S sample.scp
という感じにすると良いわけですね。
***
はその他の設定となります。
解説
もうお察しと思いますがwavファイル[始まり,終わり] 保存先
を使うことで読み込む秒数を決めるわけですね。
ただし単位は秒ではなくサンプリング周波数基準なので気をつけてください。
多分HTK Bookには載ってます...があんなページ数あるものを読むなんてなかなか骨が折れます...