Help us understand the problem. What is going on with this article?

HTKを使って1つのwavファイルから時間分割して音響特徴量作成

More than 1 year has passed since last update.

The Hidden Markov Model Toolkit (HTK)

一応軽くいっておきますとHTKとはThe Hidden Markov Model Toolkitの略で音声認識に用いられるGMM-HMMの音響モデル作成キットです。

HTKは非常に多機能なのですが、現状DNN-HMM音響モデルが出てきているためもっぱら音響特徴量作成、つまりはHCopyが主な使用コマンドとなります。

本題

さてHCopyを使う際に1つのwavファイルから音響特徴量作成(Log mel-scale filter bankやMFCCなど)を行うわけですがそのままでやると一つのファイルに書き出されてしまうことになります。

読み取った後に分割しても良いですが今回はファイルを分けてみましょう。

例えばサンプリング周波数が16000Hzの2秒のsample.wavがあったとしましょう。これを1秒ごとのsample_0-1.htksample_1-2.htkにするとします。
結論からいきましょう。
以下の設定ファイルを用意してください。

sample.wav[0,16000] sample_0-1.htk
sample.wav[16000,32000] sample_1-2.htk

そしてこれをsample.scpとすると

HCopy *** -S sample.scp

という感じにすると良いわけですね。
***はその他の設定となります。

解説

もうお察しと思いますがwavファイル[始まり,終わり] 保存先を使うことで読み込む秒数を決めるわけですね。
ただし単位は秒ではなくサンプリング周波数基準なので気をつけてください。

多分HTK Bookには載ってます...があんなページ数あるものを読むなんてなかなか骨が折れます...

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away