はじめに
MDPIのapplied sciencesというジャーナルから以下の論文
[1] C. Luna-Jimenez, et. al. "A Proposal for Multimodal Emotion Recognition Using Aural Transformers and Action Units on RAVDESS Dataset"
のまとめ
-
SOTAサイトのランキング:
https://paperswithcode.com/sota/speech-emotion-recognition-on-ravdess
こちらで見つけた
以下ではモデル構造などを簡潔にまとめ。
概要
- 音声と画像からの感情推定を行うモデル
- ベースのアーキテクチャとして事前学習した xlsr-Wav2Vec2.0 を用いる
- RAVDESS datasetでSOTAを達成した
手法
モデルの全体像は以下。
左上が音声から、特徴量を抽出する部分。左下が動画から特徴量を抽出する部分。右はこれらを用いて感情を推定する部分。
speech emotion recognizer
音声から特徴量を抽出する部分では、まず事前学習した wav2vec モデルを用いる。特にこちらの
https://github.com/pytorch/fairseq/tree/main/examples/wav2vec#wav2vec-20
53言語で学習された XLSR-53 を用いる。
これに対し、以下の図のように
新たにMLPを加え、各感情の確立を出力する。
Facial Emotion Recognizer
動画から特徴量を抽出する部分では、まずOpenFaceを用いて前処理し、それを以下のような
bidirectional-LSTMとattentionを組み合わせたものに入力する。
multimodal recognizer
音声、および動画から求めたそれぞれの特徴量をconcatし、それをロジスティック回帰で学習する。これで各感情の確立を推定する。