HTKを使って1つのwavファイルから時間分割して音響特徴量作成 #HTK

The Hidden Markov Model Toolkit (HTK)

一応軽くいっておきますとHTKとはThe Hidden Markov Model Toolkitの略で音声認識に用いられるGMM-HMMの音響モデル作成キットです。

HTKは非常に多機能なのですが、現状DNN-HMM音響モデルが出てきているためもっぱら音響特徴量作成、つまりはHCopyが主な使用コマンドとなります。

本題

さてHCopyを使う際に1つのwavファイルから音響特徴量作成(Log mel-scale filter bankやMFCCなど)を行うわけですがそのままでやると一つのファイルに書き出されてしまうことになります。

読み取った後に分割しても良いですが今回はファイルを分けてみましょう。

例えばサンプリング周波数が16000Hzの2秒のsample.wavがあったとしましょう。これを1秒ごとのsample_0-1.htkとsample_1-2.htkにするとします。
結論からいきましょう。
以下の設定ファイルを用意してください。
sample.wav[0,16000] sample_0-1.htk sample.wav[16000,32000] sample_1-2.htk

そしてこれをsample.scpとすると

HCopy *** -S sample.scp

という感じにすると良いわけですね。
***はその他の設定となります。

解説

もうお察しと思いますがwavファイル[始まり,終わり] 保存先を使うことで読み込む秒数を決めるわけですね。
ただし単位は秒ではなくサンプリング周波数基準なので気をつけてください。

多分HTK Bookには載ってます...があんなページ数あるものを読むなんてなかなか骨が折れます...