10
7

More than 1 year has passed since last update.

論文まとめ:Speech Emotion Recognition with Multi-task Learning

Posted at

はじめに

INTERSPEECH 2021 というカンファレンスから以下の論文
[1] X. Cai, et. al. Speech Emotion Recognition with Multi-task Learning
のまとめ

概要

  • 音声からの感情認識(Speech Emotion Recognition: SER)を行うモデル
  • ベースとするアーキテクチャは wav2vec-2.0
  • 音声からtextを推定すると同時に音声から感情を分類するというマルチタスクで学習を進める
  • IEMOCAPのdatasetでSOTAを達成した

related work

この分野は詳しくないので、ここも簡潔にまとめ

SER に関して昔の手法

  • ピッチ、エネルギー、フォルマント、メルバンドエネルギー、メル周波数、ケプストラム係数、を特徴量として用いたり、音声レベルの特徴量を用いる
  • これらの特徴量をSVMやLDA(線形判別分析)、QDA(2次判別分析)、HMM(隠れマルコフモデル)に入力して分類した

SER に関して Deep Learning 登場以後

  • Deep Learning登場後初期はCNNやLSTMを用いた手法
  • その後 self-attention を用いた手法が登場

Wav2Vec-2.0 に関して

  • BERTが自然言語処理の様々なタスクでfine-tuneされて用いられるのと同様に、wav2vec-2.0も音声認識タスクでfine-tuneされて用いられている
  • wav2vec-2.0は自己教示あり学習も行なっていて、これにより高性能なモデルとなっている

モデルのネットワーク構造

モデルのネットワーク構造は以下。

スクリーンショット 2022-01-31 11.56.12.png

まず学習時は上図の左側。図中下の音声を事前学習したwav2vec-2.0に入力し、特徴量を出力する。

ここから感情を学習する青い部分とテキストを学習するオレンジの部分に分かれる。感情を学習する部分では特徴量をpoolingした後に全結合し、感情を推定する。

一方でテキストを学習する部分では全結合し、テキストを推定する。

学習と推論

  • テキストを学習する部分は CTC lossを用いる
  • 感情を学習する部分は 交差エントロピー lossを用いる
  • この両者のlossを最小化するよう学習する

実験と結果

IEMOCAP datasetを用いた定量的評価

スクリーンショット 2022-01-31 11.56.46.png

他の手法よりかなりよい。ただし、他の手法がどのようなモダリティを使っているかは不明。

ablation study

ここでは loss において

\min_{\theta, \phi} \mathcal{L} = \mathcal{L}_{\rm CE} + \alpha \mathcal{L}_{\rm CTC}

右辺1項目交差エントロピー loss と右辺2項目CTC lossとの比を調整する係数 $\alpha$ を変化させ、その精度を測定することで、テキストを学習する部分の効果を検証した。結果は以下。

スクリーンショット 2022-01-31 11.56.55.png

まず、αが0の時に比べて、$\alpha > 0$ の方がよいので、テキスト学習部分の効果は有ると言える。

特に $\alpha = 0.1$ の場合が最も良い。

10
7
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
7