↓論文
Magface: A universal representation for face recognition and quality assessment.
MagFaceって読む価値あるの?
深層距離学習モデルArcFaceを拡張し、顔認識分野においてSoTAを達成しています。
※ 深層距離学習ってなに?ArcFaceってなに?という方は、@yu4uさんがわかりやすく解説くださっています。
コンピュータービジョンの世界トップカンファレンスCVPR2021に採択されました。
論文が公開されたのはつい最近の今年6月なのに、すでに被引用数11に登っています。(2021/8/29現在)
つまり、現在非常に「ホット」な論文です!
顔認識だけでなくcos類似度を聞いたことのある人、使ったことのある人は必見ですよ!!!
要約(30秒でわかるMagFace)
ArcFaceは特徴ベクトルの「向き」しか考慮しないのに対し、
MagFaceは特徴ベクトルの**「向き」と「大きさ」**に着目し、次のように意味づけします。
- 向き : 画像間の類似度
- 大きさ : 画像の品質
高品質なデータはクラス中心に集まるように学習することで、
顔認識、品質評価、クラスタリングの実験において、高い精度を示しています。
MagFaceのモチベーション
下記3つのモチベーションを同時に解決するために、ArcFaceを拡張します。
1. 【Quality】 データ品質を定量化したい
データの品質は、明るさ・角度・隠れ具合などさまざまな要素が複雑に絡み合っています。
→ MagFaceでは、**データ品質 =「顔認識の難しさ」**と定義することで定量化をはかります。
2. 【Recognition】 顔認識の精度を向上させたい
上図は顔認識で高精度を発揮しているArcFaceの幾何学的解釈(こちら参照)です。
しかしArcFaceでは、ノイズの大きいサンプル画像の重みが大きくなってしまいます。
→ MagFaceでは、**「顔認識の難しさ」=「特徴ベクトルの大きさ」**となるような制約を追加することでノイズの大きいサンプルの影響を小さくさせます。
3. 【Clustering】 顔のクラスタリング精度を向上させたい
→ MagFaceでは、クラスタの中心には高品質なデータ、つまり自信の高いデータを集めることで、クラスタリング精度向上に寄与します。
ArcFaceと何がちがうの?
特徴ベクトルの**「向き」だけでなく「大きさ」**にも着目します。
ちなみに、MagFace の Mag は **magnitude(大きさ)**の略です。
幾何学的解釈
ArcFaceとMagFaceの最適化済み特徴空間を比較します。
- ArcFace (正規化なし)
- サンプルに依らない一様なマージン$m$を学習に用いる
- → 赤領域に入った3種類の朴槿恵前大統領には罰則(ペナルティ)なし
- → 3種類の朴槿恵はデータ品質に関わらず任意の位置に留まる
- → クラス内分布が不安定になる
- MagFace
- 下記2つの条件のもと学習させる
-
- サンプルが高品質なほど特徴ベクトルの大きさ$a$を大きくする
-
- 特徴ベクトルの大きさ$a$が大きいほどマージン$m$を大きくする
-
- → 高品質な朴槿恵ほどクラス中心$W$に近づく
- 下記2つの条件のもと学習させる
※ 円の半径は特徴の分散を示し、半径が小さいと高品質を意味する
損失関数の設計
- ArcFace
- コサイン類似度に基づく顔認識損失 (マージン$m$)
- MagFace
- コサイン類似度に基づく顔認識損失
- $𝑚(𝑎_𝑖 )$ : 特徴ベクトルの大きさ $a_i$ が大きいとマージンは大きくなる(狭義単調増加凸関数 )
- 特徴ベクトルの大きさ$a_i$ の大きいサンプルに報酬を与える正則化項
- $𝑔(𝑎_𝑖 )$ : 特徴ベクトルの大きさ $a_i$ が大きいと$g$は小さくなる(狭義単調減少凸関数)
- $\lambda_g$ : 正則化項の強さを決定するハイパーパラメータ
- → $𝑔(𝑎_𝑖 )$は一見すると何やってるかわからないが、**「データ品質が高い、すなわち円の半径が小さいサンプルのみ$a_i$の自由度が高い」**という性質を活かした簡単な設計となっているみたい
- コサイン類似度に基づく顔認識損失
※ MagFaceの左図においておそらく$B_1$と$B_3$は論文著者のミスで実際は逆
この結果ArcFaceは、$m(a_i)=m, g(a_i)=0$ のMagFaceにおける特殊なケースと考えることができます。
数理的保証
特徴ベクトルの大きさ $a_i$ が有界区間 $[l_a, u_a]$ に入り、$λ_g$ が十分に大きいと仮定すると、$a_i$上の$L_i$を最適化する際に以下の2つの特性が常に成立することを証明しています。
- 【収束性】 $a_i∈[l_a, u_a]$ に対して、$L_i$ は厳密に凸関数であり、唯一の最適解 $a_i^*$ を持つ
- → $a_i$の最適解が一意であることと、高速収束が保証される
- 【単調性】 最適解 $a^∗_i$ は、そのクラス中心へのcos距離が減少し他クラスへのcos距離が増加すると、単調に増加する。
- → 特徴量の大きさがデータ品質を表す指標として扱うことができることを保証
証明の詳細は論文の補足資料をご覧ください。
実験結果
設計したMagFace損失で著者の意図通り学習できているかをセクション0で検証したのち、
先に説明した3つのモチベーションが解決されているかを分析します。
0. MagFace損失の効果を可視化
広く使われているMS1M-V2データセットで実験を行い、収束時の学習サンプルについて特徴ベクトルの大きさとクラス中心との類似度の関係を調べています。
- (a) Softmax : 放射状の分布となる(相関なし)
- → 特徴ベクトル $a$ の大きさに対する明確な制約がないため、各サンプルのネガティブ損失の値はその大きさにほとんど依存しない
- (b) ArcFace : データの品質に関わらず右側に集中する
- クラス中心$W$との類似度$\cosθ$ が大きい高品質なサンプルは、特徴ベクトルの大きさ(縦軸)の上下が激しい
- 認識が難しい($\cosθ$が小さい)低品質のサンプルに対しては、固定角マージンのせいで下限値(緑の破線)より小さくなることはない
- (c) MagFace : MagFaceのモチベーションを正しく反映している
- 特徴ベクトルの大きさと $a$ クラス中心とのcos類似度に強い相関がある
- 特徴ベクトルの大きさ $a$ が小さくなるにつれて、サンプルはクラス中心からより強く乖離している
※ モデルはMS1M-V2で学習され、最後のiterationの512サンプルを可視化に使用
1. 【Quality】 データ品質の定量化指標「a」
下図より、特徴ベクトルの大きさ $a$ が大きくなると、対応する平均顔がより詳細になることがわかります。これは、高品質な顔は、より正面を向いていて特徴的になる傾向があるからです。これは、MagFaceで学習した特徴ベクトルの大きさ $a$ がデータ品質を表す良い指標であることを意味しています。
※ IJB-Cデータセットから抽出した100k枚の画像の平均顔を視覚化したもの。各平均顔は、MagFaceによって学習された特徴量の大きさレベルに基づいて、顔のグループに対応しています。
2. 【Recognition】 顔認識の精度向上
ArcFace論文の設定に準拠して実験した結果、精度はほぼ飽和状態ですが、MagFaceは総合的に最良の結果を得ています。(横列はデータセットの種類)
また、IJB-Bとそれを拡張したIJB-Cデータセットを用意し、指標 True Acceptance Rate (TAR@FAR=1e-6,1e-5,1e-4) で評価しています。
その結果MagFaceは、IJB-BのFAR=1e-6を除く全てのFAR基準でトップを維持しています。これにより難易度の高いデータセットにおいてMagFaceが優れていることを示しています。
なお、1つのIDに対して複数の画像が存在する場合、特徴ベクトルの大きさで重み付けされた特徴量を集約する (MagFace++) ことで、精度をさらに向上させることができました。
3. 【Clustering】 顔のクラスタリング精度向上
MagFaceは、データセットに関わらずF-scoreとNMIの両方の評価指標において、常にArcFaceよりも優れた性能を達成しています。MagFaceの方がクラス内の特徴分布が優れていることに起因していると考えられる。
下図よりIJB-B-1dデータセットでは、MagFaceの大きさがクラス中心である確率と正の相関があることがわかりました。この結果は、高品質のサンプルはクラス中心に分布し、低品質のサンプルは中心から離れているという、予想されたクラス内構造をMagFace特徴が示していることを反映しています。
※ 各サンプルがクラス中心である確率は、顔の特徴によって定義される隣接構造に基づいて推定されます。局所的な接続が密なサンプルはクラス中心確率が高く、接続が疎なサンプルや複数のクラスターの境界に存在するサンプルはクラス中心確率が低くなります。詳細は [46] をご覧ください。
まとめ
MagFaceはデータ品質を考慮して顔表現を学習するために2つの原則に従っています。
- 同じクラスの異なる品質の顔画像が与えられたとき、高品質のものはクラス中心に近く、低品質のものは境界に分布するようなクラス内分布を学習しようとする
- 特徴量計算と同時に品質も測定するため、既存の推論アーキテクチャを変更するためのコストを最小限に抑えることができる
これによってArcFaceなどの既存マージンベース手法と比較して、よりよい精度が出ています。
さらに、特徴の角度だけでなく大きさも着目するというアイデアは、今後さまざまなタスクに拡張できそうです。
次に読むべき論文は?
↓論文
T-vMF Similarity for Regularizing Intra-Class Feature Distribution.
MagFaceと同じくCVPR2021に採択されており、なおかつ、
アプローチは違いますがこちらもcos類似度を拡張した論文です。
また、日本を代表する研究所AISTが発表してますので、日本人としても読んでおきたいですね。
参考文献
[46] Lei Yang, Dapeng Chen, Xiaohang Zhan, Rui Zhao, Chen Change Loy, and Dahua Lin. Learning to cluster faces via confidence and connectivity estimation. In IEEE Conference on Computer Vision and Pattern Recognition, 2020. 3,8