More than 3 years have passed since last update.

論文まとめ：Robust Lightweight Facial Expression Recognition Network with Label Distribution Training

Posted at 2021-07-15

はじめに

AAAI 2021より以下の論文のまとめ
[1] Z. Zhao, et. al. Robust Lightweight Facial Expression Recognition Network with Label Distribution Training

論文
https://ojs.aaai.org/index.php/AAAI/article/view/16465
公式コード
https://github.com/zengqunzhao/EfficientFace
-> pytorch
-> 完全な学習済みモデルは提供されてないので、再学習させる必要あり

全体のアーキテクチャは以下。

まず全体的に見ると、層も深くなく、かつ随所にdepth-wise conv, point-wise convが使われているため、簡素で高速な作り。

下部のlabel distribution generatorは事前に学習しておき、本学習時はパラメータを固定してラベルのdistributionを生み出す役割。

このモジュールはよりlocalな特徴量を披露ためのもの。

上図左上において、input Feature Mapsを空間的に縦２つ、横２つと４等分し、それぞれに対してdepth-wiseで畳み込む。

以下の図は既存モデルとCAMでsalient mapを比較したもの。

ここではよりglobalな特徴量を取得するが、既存の表情読み取りモデルにおいてはglobalな畳み込みは冗長であるとし、２系統のシンプルなモジュールとしている。

１系統目はGAPして完全にglobalなものとし、fc２回を行う。

２系統目は3x3畳み込みとpoint-wize convを２回ずつ行う。

先に挙げたように、label distribution generatorはtargetとなる確率分布を生み出す。

従来の分類的な手法だと、「neutral, happiness, sadness, surprise, fear, disgust, angry」に無理やり分類して学習するが、実際の表情はそれらの組み合わせであったり、中間で合ったりするらしい。

例えば「満足げに恐れ慄く」みたいな表情は happiness=0.5, surprise=0.1, fear=0.4 などとした方がよいだろうか。

具体的には、このモジュールから出たlogitにsoftmaxをかけて確立分布とし

d_i = \frac{exp(v_i)}{\sum^{c-1}_{j=0} exp(v_j)}

この i クラスの確立とmainのモデルから出力される確立 $\tilde{d_j^i}$ とで

\mathcal{L} = -\frac{1}{N \times c} \sum^{N-1}_{i=0} \sum^{c-1}_{j=0} d^i_j log (\tilde{d_j^i})

と交差エントロピーを求める。

以下は各表情画像とそのラベルとなる確立分布。

以下が結果。

パラメータ数、速度で既存手法を大きく上回りながら精度も若干上回っている。

以下が各モジュールを加えていったときの精度等の変化。

正直言って、各モジュールはあまり寄与してない。