Help us understand the problem. What is going on with this article?

L2-constrained Softmax Loss for Discriminative Face Verification【1. Introduction】【論文 DeepL 翻訳】

この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.

翻訳元
L2-constrained Softmax Loss for Discriminative Face Verification
Rajeev Ranjan, Carlos D. Castillo, Rama Chellappa

前: 【Abstract】
次: 【2. Related Work】

1. Introduction

訳文

制約のない環境での顔認証は困難な問題である. 最近の顔認証システムは, Labeled Faces in the Wild (LFW) [14] のようなキュレーションされたデータセットで優れた性能を発揮しているにもかかわらず, 視点, 解像度, オクルージョン, 画質が極端に変化する顔に対して同様の精度を達成することは依然として困難である. これは, 公開されている IJB-A [16] のデータセットにおける従来のアルゴリズムの性能からも明らかである. 訓練セットのデータ品質の不均衡が, この性能差の原因の一つとなっている. 既存の顔認識訓練データセットには, 高品質の顔や正面顔が大量に含まれているが, 制約のない顔や難しい顔はほとんど含まれていない. DCNN をベースにした手法の多くは, 分類のためにソフトマックス損失を用いて学習され, 高品質のデータにオーバーフィットする傾向があり, 困難な条件で得られた顔を正しく分類することができなかった.
顔認証システムの学習にソフトマックス損失関数を使用することには賛否両論ある. 一方で, Caffe [15], Torch [7], TensorFlow [1] のような一般に公開されているディープラーニングツールボックスに組み込まれた関数を使用して簡単に実装することができる. トリプレットロス [28] とは異なり, 入力バッチサイズに制限がなく, 迅速に収束する. 学習された特徴量は, メトリック学習を行わなくても効率的な顔認証を行うのに十分な識別力を持っている.
一方, ソフトマックス損失はサンプル分布に偏りがある. ハードサンプルに特化したコントラスト損失 [29] やトリプレット損失 [28] とは異なり, ソフトマックス損失は与えられたミニバッチ内のすべてのサンプルの条件付き確率を最大化する. したがって, ソフトマックス損失は, 学習用ミニバッチからの稀な困難な顔を無視して, 高品質の顔によく適合する. ソフトマックス損失を用いて学習された特徴量の $L_2$ ノルムが顔の質の情報を提供していることがわかる [23]. 質の良い正面顔の特徴量は $L_2$ ノルムが高いのに対し, 極端なポーズのぼやけた顔は $L_2$ ノルムが低いことがわかる (図1(b)参照). さらに, ソフトマックス損失は, 正のペアを近づけて負のペアを遠ざけるという検証要件を最適化していない. この理由から, 多くの手法では, ソフトマックス特徴量の上にメトリック学習を適用するか [27, 3, 24], またはソフトマックス損失と一緒に補助損失 [33, 29, 32] を訓練することで, より良い検証性能を実現している.
本論文では, ソフトマックス損失に関連する問題に対する対症療法を提供する. 我々は, 特徴量の $L_2$ ノルムが一定となるように, 学習中の特徴量に制約を加える $L_2$-softmax 損失を提案する. 言い換えれば, 我々は特徴量を固定半径の超球上に置くように制限する. 提案された $L_2$-softmax 損失には2つの利点がある. 第一に, すべての特徴が同じ $L_2$ ノルムを持つため, 良い顔と悪い顔の両方に同様の注意を払うことができ, これは制約のない設定での性能向上に不可欠である. 第二に, 正規化された空間において, 同じ被写体の特徴がより近く, 異なる被写体の特徴がより遠くになるように強制することで, 検証信号を強化する. このようにして, 負のペアと正のペアの間の正規化された $L_2$ 距離またはコサイン類似度スコアのマージンを最大化する. このようにして, 通常のソフトマックス損失の主な欠点を克服する.
$L_2$-softmax 損失は, 通常のソフトマックス損失の利点も保持している. ソフトマックス損失と同様に, これは 1 つのネットワーク, 1 つの損失システムである. 最近の多くの手法 [33, 24, 32, 29] で使用されているように, 必ずしも共同監視を必要としない. Caffe [15], Torch [7], TensorFlow [1] の組み込み関数を使用して簡単に実装でき, 非常に高速に収束する. これは, ネットワークに単一のスケーリングパラメータを導入するだけである. 通常のソフトマックス損失と比較して, $L_2$-softmax 損失は性能を大幅に向上させる. IJB-A データセット, LFW データセット, YouTube Face データセットに匹敵する最新の結果を達成した. また, 複数のネットワークや複数の損失関数, あるいはその両方を使用しているいくつかの最先端のシステムの性能を凌駕している. まとめると, 本論文は以下のような面で貢献している:

  1. 特徴記述子の $L_2$ ノルムを一定値 $\alpha$ に制限する, 顔認証のためのシンプルで斬新かつ効果的な $L_2$-softmax 損失を提案する.

  2. 本研究では, スケーリングパラメータ $\alpha$ に対する性能のばらつきを調べ, 一貫して高い性能を達成するための適切な境界値を提示する.

  3. 提案手法は, LFW [14], YouTube Face [19], IJB-A [16] の 3 つの顔認証データセットすべてにおいて, 一貫した有意なブーストを実現する.

さらに, $L_2$-softmax 損失による利益は, メトリック学習 (例: TPE [27], joint-Bayes [3]) や補助損失関数(例:center loss [33], contrastive loss [29]) を補完するものである. これらの手法を $L_2$-softmax 損失の上に適用することで, 検証性能をさらに向上させることができることを示す. TPE [27] と組み合わせることで, $L_2$-softmax 損失は, 難度の高い IJB-A [16] のデータセットにおいて, 真偽判定率 (FAR) 0.0001 に対して真偽判定率 (TAR) 0.909 という記録を達成した.

原文

Face verification in unconstrained settings is a challenging problem. Despite the excellent performance of recent face verification systems on curated datasets like Labeled Faces in the Wild (LFW) [14], it is still difficult to achieve similar accuracy on faces with extreme variations in viewpoints, resolution, occlusion and image quality. This is evident from the performance of the traditional algorithms on the publicly available IJB-A [16] dataset. Data quality imbalance in the training set is one of the reason for this performance gap. Existing face recognition training datasets contain large amount of high quality and frontal faces, whereas the unconstrained and difficult faces occur rarely. Most of the DCNN-based methods trained with softmax loss for classification tend to over-fit to the high quality data and fail to correctly classify faces acquired in difficult conditions.
Using softmax loss function for training face verification system has its own pros and cons. On the one hand, it can be easily implemented using inbuilt functions from the publicly available deep leaning toolboxes such as Caffe [15], Torch [7] and TensorFlow [1]. Unlike triplet loss [28], it does not have any restrictions on the input batch size and converges quickly. The learned features are discriminative enough for efficient face verification without any metric learning.
On the other hand, the softmax loss is biased to the sample distribution. Unlike contrastive loss [29] and triplet loss [28] which specifically attend to hard samples, the softmax loss maximizes the conditional probability of all the samples in a given mini-batch. Hence, it fits well to the high quality faces, ignoring the rare difficult faces from a training mini-batch. We observe that the L2-norm of features learned using softmax loss is informative of the quality of the face [23]. Features for good quality frontal faces have a high L2-norm while blurry faces with extreme pose have low L2-norm (see Figure 1(b)). Moreover, the softmax loss does not optimize the verification requirement of keeping positive pairs closer and negative pairs far from each other. Due to this reason, many methods either apply metric learning on top of softmax features [27, 3, 24] or train an auxiliary loss [33, 29, 32] along with the softmax loss to achieve better verification performance.
In this paper, we provide a symptomatic treatment to issues associated with the softmax loss. We propose an L2softmax loss that adds a constraint on the features during training such that their L2-norm remain constant. In other words, we restrict the features to lie on a hypersphere of a fixed radius. The proposed L2-softmax loss has a dual advantage. Firstly, it provides similar attention to both good and bad quality faces since all the features have the same L2-norm now, which is essential for better performance in unconstrained settings. Secondly, it strengthens the verification signal by forcing the same subject features to be closer and different subject features to be far from each other in the normalized space. Thus, it maximizes the margin for the normalized L2 distance or cosine similarity score between negative and positive pairs. Thus, it overcomes the main disadvantages of the regular softmax loss.
The L2-softmax loss also retains the advantages of the regular softmax loss. Similar to the softmax loss, it is a one network, one loss system. It doesn’t necessarily require any joint supervision as used by many recent methods [33, 24, 32, 29]. It can be easily implemented using inbuilt functions from Caffe [15], Torch [7] and TensorFlow [1], and converges very fast. It introduces just a single scaling parameter to the network. Compared to the regular softmax loss, the L2-softmax loss gains a significant boost in the performance. It achieves new state-of-the-art results on IJB-A dataset, and competing results on LFW and YouTube Face datasets. It surpasses the performance of several state-of-the-art systems, which use multiple networks or multiple loss functions or both. In summary, this paper contributes to the following aspects:

  1. We propose a simple, novel and effective $L_2$-softmax loss for face verification that restricts the $L_2$-norm of the feature descriptor to a constant value $\alpha$.

  2. We study the variations in the performance with respect to the scaling parameter $\alpha$ and provide suitable bounds on its value for achieving consistently high performance.

  3. The proposed method yields a consistent and significant boost on all the three challenging face verification datasets namely LFW [14], YouTube Face [19] and IJB-A [16].

Moreover, the gains from L2-softmax loss are complementary to metric learning (eg: TPE [27], joint-Bayes [3]) or auxiliary loss functions (eg: center loss [33], contrastive loss [29]). We show that applying these techniques on top of the L2-softmax loss can further improve the verification performance. Combining with TPE [27], L2-softmax loss achieves a record True Accept Rate (TAR) of 0.909 at False Accept Rate (FAR) of 0.0001 on the challenging IJB-A [16] dataset.

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away