0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

音声認識【5.対数メルフィルタバンク特徴量】

Posted at

ディザリング処理

  • 無声区間における波形に対してスペクトログラムを計算しようとすると,振幅スペクトルの対数を計算したときに値がマイナス無限大となってしまう.
  • そこで,波形全体に対して極小さいノイズを加える.

直流成分除去

  • 振幅値の平均は0になるはずだが,環境の影響によって平均値が0からずれることがある.
  • この影響を除くために短時間フーリエ変換の際にフレームごとにその振幅値の平均で引く.

高域強調(プリエンファシス)

  • 音声は高周波数帯域になるほど,マイクに到達するまでに減衰してしまう.
  • 減衰分だけ増加させるためのフィルタを畳み込む.

フィルタバンク

  • そのままでは周波数成分それぞれが次元となり,次元が多すぎて分析には適していない.
  • そこで,一定範囲ごとに周波数成分の値を集約して一つにまとめる.

メルフィルタバンク

  • フィルタバンクの中でも,人間の聴覚特性に基づいて集約を行う方法.
  • 人間は周波数が低い音に敏感で,高い音に鈍感.
  • よって,低周波数帯域では細かい単位で集約し,高周波帯域になるほど大きい単位で集約する.
  • メル尺度:低周波数帯域ほど急で,高周波数帯域ほど緩やか
  • メル尺度に従ってフィルタバンクを作成したものが,メルフィルタバンク.
image

対数メルフィルタバンク特徴量(FBANK)

  • メルフィルタバンク特徴量の対数を取ったもの.

実装

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?