フーリエ変換
背景
- 自然界の音は複数の周波数の音が組み合わさってできている
- この組み合わさり方の違いが,音色の違いとして表れる
- 人間は蝸牛内の基底膜が,周波数ごとの振動に分解する
- 音声認識では,フーリエ変換によって,基底膜の働きを模倣する
フーリエ変換とは
- 「あらゆる周期的な信号は,周波数の異なる三角関数の組み合わせで表現できる」
- 連続フーリエ変換:連続値の時間信号を連続値の周波数軸に分解
- 離散時間フーリエ変換:離散値の時間信号を連続値の周波数軸に分解
-
離散フーリエ変換(DFT):離散値の時間信号を離散値の周波数軸に分解
- 音声認識では離散フーリエ変換
- 逆離散フーリエ変換(IDFT):スペクトルから時間信号に戻す
- 高速フーリエ変換(FFT):離散フーリエ変換を高速に処理する方法
- この辺りの理論はまた後程詳しくやり直す.
スペクトル
- スペクトル:フーリエ変換の結果得られる.音圧、音の強さなどを周波数の関数として示したもの.
- 振幅スペクトル:スペクトルの絶対値.フーリエ変換の結果得られた複素数から絶対値を取って,振幅を取り出す.複素数平面における原点からの距離.
- 位相スペクトル:偏角.フーリエ変換の結果得られた複素数の偏角.
- 対数振幅スペクトル:振幅スペクトルの対数を取ったもの.振幅スペクトル自体は値の振れ幅が極端に大きく,プロットすると細部の構造が見づらく分析に向いていない.
- パワースペクトル:振幅スペクトルの二乗
FFT 実装
- Colab: https://colab.research.google.com/drive/1DlMTv_XumEzoodqjfFES3-UvixSaKS-H?usp=sharing
- 時間0.58の時点における対数振幅スペクトル
- 次回は短時間フーリエ変換.