論文紹介-#4
落合先生のフォーマットを元に論文をまとめ紹介していく記事です。
今回は、CVPR2019のPFLD: A Practical Facial Landmark Detectorという論文を紹介します。
至らないところばかりなのでツッコミお待ちしてます!
どんなもの?
モデルサイズ2.1MbでQualcomm ARM 845プロセッサで140fps以上のリアルタイム輪郭点検出モデル。
PFLD 0.25Xモデルデモシステム
先行研究と比べてどこがすごい?
精度と速度のトレードオフだったところを、様々な精度改善手法の導入により、精度と速度両方をモバイルシステム上で稼働させても遜色ないレベルにまであげた。
技術や手法のキモはどこ?
輪郭点検出の課題として以下があった。
1, 一部隠れたりといった局所的な変更
2, 顔の向きや画像品質の問題
3, データの不均衡
4, モデルの効率性
この1,2,3を、幾何学的制約とデータ不均衡の懸念を考慮した新しい損失関数で解決した。
この損失関数は、推定したyaw, roll, pitchの偏差角が正解より大きいほどペナルティをかけ、データが少ない真正面以外の顔画像に対する学習を促進し、顔の向きなどにも対応する。
また、受容野を拡大し顔の全体的な構造をよりよく捉えるために、バックボーンネットにマルチスケール完全接続(MS-FC)レイヤを追加した。
また、バックボーンネットにMobileNetを使うことにより、モデルの効率性をあげ課題4を解決した。
そして、ランドマーク推定と回転情報推定(yaw, pitch, roll)を切り離し、標準顔からオイラー角を計算して学習させる補助サブネットを用意した。
どうやって有効だと検証した?
300W(iBUG、LFPW、AFW、HELEN、およびXM2VTSを含む)およびAFLWをデータセットに、他の検出モデルと精度比較した。
Mobilenetのwidthパラメタを変えることで、0.25X, 1X, 1X+の3つのモデルを作成し比較検証した。
議論はある?
量子化によりさらにサイズ削減できる可能性
今は、yaw, roll, pitchのみを使っているが、他の幾何学的、構造的情報を使用すれば更に精度が上がるのでは
次に読むべき論文は?
Style Aggregated Network for Facial Landmark Detection
Look at Boundary: A Boundary-Aware Face Alignment Algorithm
Mobilenets: Efficient convolutional neural net-works for mobile vision applications.
Shufflenet: An extremely efficient convolutional neural network for mobile devices
Disentangling 3d pose in a dendritic cnn for unconstrained 2d face alignment