More than 3 years have passed since last update.

論文まとめ：A Proposal for Multimodal Emotion Recognition Using Aural Transformers and Action Units on RAVDESS Dataset

Posted at 2022-01-31

はじめに

MDPIのapplied sciencesというジャーナルから以下の論文
[1] C. Luna-Jimenez, et. al. "A Proposal for Multimodal Emotion Recognition Using Aural Transformers and Action Units on RAVDESS Dataset"
のまとめ

論文:
https://www.mdpi.com/2076-3417/12/1/327
コード:
https://github.com/cristinalunaj/MMEmotionRecognition
SOTAサイトのランキング:
https://paperswithcode.com/sota/speech-emotion-recognition-on-ravdess
こちらで見つけた

以下ではモデル構造などを簡潔にまとめ。

概要

音声と画像からの感情推定を行うモデル
ベースのアーキテクチャとして事前学習した xlsr-Wav2Vec2.0 を用いる
RAVDESS datasetでSOTAを達成した

手法

モデルの全体像は以下。

左上が音声から、特徴量を抽出する部分。左下が動画から特徴量を抽出する部分。右はこれらを用いて感情を推定する部分。

speech emotion recognizer

音声から特徴量を抽出する部分では、まず事前学習した wav2vec モデルを用いる。特にこちらの
https://github.com/pytorch/fairseq/tree/main/examples/wav2vec#wav2vec-20
53言語で学習された XLSR-53 を用いる。

これに対し、以下の図のように

新たにMLPを加え、各感情の確立を出力する。

Facial Emotion Recognizer

動画から特徴量を抽出する部分では、まずOpenFaceを用いて前処理し、それを以下のような

bidirectional-LSTMとattentionを組み合わせたものに入力する。

multimodal recognizer

音声、および動画から求めたそれぞれの特徴量をconcatし、それをロジスティック回帰で学習する。これで各感情の確立を推定する。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up