メル周波数ケプストラム
- 対数メルフィルタバンク特徴量は,人間の聴覚のメカニズムに基づいて情報を圧縮
- メル周波数ケプストラムは,聴覚だけでなく,発声のメカニズムも考慮してさらに情報を圧縮
- 声道の共振特性: 声道内で声帯振動の特定の周波数が共鳴し,音声となる
- フォルマント:共振周波数
ケプストラム分析
- この声道の共振特性の成分を抽出
- 音声スペクトルを声帯振動の成分と声道共振特性の成分に分離する
- ケプストラム:対数パワースペクトルをさらに逆フーリエ変換を行って得たもの
- 横軸:ケフレンシ(秒)
- 低ケフレンシ帯域:パワースペクトルの包絡部分(声道共振特性の成分)
- 高ケフレンシ帯域:パワースペクトルの微細構造の部分(声帯振動の成分)
- リフタリング:ケプストラム領域において高ケフレンシ帯域をカットすること
- リフタ:ケプストラム領域におけるフィルタ
- Colab: https://colab.research.google.com/drive/1fa3bHBJfLQLfhR8fycP5fjh8tdAB28D7?usp=sharing
メル周波数ケプストラム(MFCC)
- ケプストラムをメルフィルタバンク特徴量に対して計算したもの.
- メルフィルタバンク分析によって圧縮したパワースペクトル情報に対して,ケプストラム分析によってスペクトル包絡(声道共振特性)の成分だけを取り出して情報をさらに圧縮する.
- 対数メルフィルタバンク特徴量に対して,離散コサイン変換を行い,低次の値だけを取りだす.
- Colab: https://colab.research.google.com/drive/1r6-gB97lfYv6u9kail9lBY7Tj5Re2shE?usp=sharing