More than 3 years have passed since last update.

論文まとめ：Speech Emotion Recognition with Multi-task Learning

Posted at 2022-01-31

はじめに

INTERSPEECH 2021 というカンファレンスから以下の論文
[1] X. Cai, et. al. Speech Emotion Recognition with Multi-task Learning
のまとめ

この分野は詳しくないので、ここも簡潔にまとめ

BERTが自然言語処理の様々なタスクでfine-tuneされて用いられるのと同様に、wav2vec-2.0も音声認識タスクでfine-tuneされて用いられている
wav2vec-2.0は自己教示あり学習も行なっていて、これにより高性能なモデルとなっている

モデルのネットワーク構造は以下。

まず学習時は上図の左側。図中下の音声を事前学習したwav2vec-2.0に入力し、特徴量を出力する。

ここから感情を学習する青い部分とテキストを学習するオレンジの部分に分かれる。感情を学習する部分では特徴量をpoolingした後に全結合し、感情を推定する。

一方でテキストを学習する部分では全結合し、テキストを推定する。

他の手法よりかなりよい。ただし、他の手法がどのようなモダリティを使っているかは不明。

ここでは loss において

\min_{\theta, \phi} \mathcal{L} = \mathcal{L}_{\rm CE} + \alpha \mathcal{L}_{\rm CTC}

右辺１項目交差エントロピー loss と右辺２項目CTC lossとの比を調整する係数 $\alpha$ を変化させ、その精度を測定することで、テキストを学習する部分の効果を検証した。結果は以下。

まず、αが0の時に比べて、$\alpha > 0$ の方がよいので、テキスト学習部分の効果は有ると言える。

特に $\alpha = 0.1$ の場合が最も良い。