顔ボックスの精度(Recall Rateです)は、Dlibのものより、OpenCVのHaarCascadeのほうが優秀です。
Dlibの顔ボックス検出を利用して、データを作っていました。が、アジア人の検出失敗が多いことに気づいた。ためしに、OpenCVのHaarCascadeでも試し、比較しました。
UTKFaceというオープンな顔データを使い比較しました。商用不可で、古く、イメージが小さいのですが、カテゴリー付けがしてあって、人種と性別、年齢情報がついてあって、調査には重宝する。InTheWildの母データは、24,109件あって、アジア系の顔が3,586件。ある程度バランスよい。
InTheWildのイメージから、顔ボックスを検出して、成功したらCropした結果を吐き出す。検出ボックスの幅150pixel以下は捨てる、Laplacian Meanが50未満なら捨てる(ボケ排除)、という条件を等しく課しています。
Dlibは、4,050件がCrop成功で、アジア系は269件。
OpenCVのHaarCascadeは、4,835件がCropできて、アジア系は361件。
顔ボックスに関しては、Dlibよりも、OpenCVのほうが検出率が高く、使っているトレーニングデータも、よりバランスが取れているようです。DlibのLandmarkを使う人が多いですが、Landmarkに限らず、顔検出のほうでも、Dlibが使っているトレーニングデータは偏っていることがうかがえます。