1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

論文まとめ:A Proposal for Multimodal Emotion Recognition Using Aural Transformers and Action Units on RAVDESS Dataset

Posted at

はじめに

MDPIのapplied sciencesというジャーナルから以下の論文
[1] C. Luna-Jimenez, et. al. "A Proposal for Multimodal Emotion Recognition Using Aural Transformers and Action Units on RAVDESS Dataset"
のまとめ

以下ではモデル構造などを簡潔にまとめ。

概要

  • 音声と画像からの感情推定を行うモデル
  • ベースのアーキテクチャとして事前学習した xlsr-Wav2Vec2.0 を用いる
  • RAVDESS datasetでSOTAを達成した

手法

モデルの全体像は以下。

スクリーンショット 2022-01-31 12.47.09.png

左上が音声から、特徴量を抽出する部分。左下が動画から特徴量を抽出する部分。右はこれらを用いて感情を推定する部分。

speech emotion recognizer

音声から特徴量を抽出する部分では、まず事前学習した wav2vec モデルを用いる。特にこちらの
https://github.com/pytorch/fairseq/tree/main/examples/wav2vec#wav2vec-20
53言語で学習された XLSR-53 を用いる。

これに対し、以下の図のように

スクリーンショット 2022-01-31 12.47.23.png

新たにMLPを加え、各感情の確立を出力する。

Facial Emotion Recognizer

動画から特徴量を抽出する部分では、まずOpenFaceを用いて前処理し、それを以下のような

スクリーンショット 2022-01-31 13.06.34.png

bidirectional-LSTMとattentionを組み合わせたものに入力する。

multimodal recognizer

音声、および動画から求めたそれぞれの特徴量をconcatし、それをロジスティック回帰で学習する。これで各感情の確立を推定する。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?