概要
ライブラリface_recognition https://github.com/ageitgey/face_recognition
はipython notebook でのexample を用意しており、
https://beta.deepnote.com/project/96864ee5-2990-45ad-b44b-22ddc971fe43#%2Fexample.ipynb
ここからさわれる。
この例ではテスト画像としてObamaとBidenが隣どうしに写っている以下の画像が使われている。
これらのモデルでは、後述のいくつかの機械学習モデルによって顔を検出したのち、
対象範囲の局所特徴量(後述)を抽出、学習データで個人ごとに抽出されている局所特徴量との
距離を判定することによって、テスト画像の中の顔が、「誰の」顔なのかを判定している。
コードを少し確認していたところ、
内部ではdlibというC++のライブラリが実装している
CNNモデル、及び深層学習ではないカスケード分類器を使用していた。
そこで画像特徴抽出にOpenCVや今回のdlibで実装されている色々な特徴抽出方法
カスケード分類器について今一度まとめてみた。
深層学習モデルの方で扱われているモデルについては言及していないが、
基本的に顔の検出をする特徴量抽出を行うモデルと、検出された範囲を識別するモデルが連なっている場合が多い。
参考:
- https://www.slideshare.net/takashiabe338/fast-rcnnfaster-rcnn
- https://qiita.com/mdo4nt6n/items/68dcda71e90321574a2b
カスケード分類器 vs 深層学習モデル
ここ最近では、より精度の出る深層学習であるCNNモデルなどがカスケード分類器にとって変わっている。
しかしながら、CNNが学習しているのも、カスケード分類器が学習する画像の「着目したい特徴量」であるため、
カスケード分類器についても基礎として知っておいた方がいいだろう。
例えば以下は先述のdlib機械学習ライブラリを用いて、
対象画像の中の顔を検出する2つのモデルを試している。
- カスケード分類器の1つであるHOG特徴量抽出ーー>SVMに流し込み顔かどうかの判定
- CNNベースで顔の検出をしたもの
の結果を比べている。
####dlibで実装されているカスケード分類器による顔検出の例。
####CNNモデルを用いた深層学習モデルによる顔検出の例。
深層学習の方が基本的にはより精度の高い画像認識を行える。
カスケード分類器
深層学習とは違い、予め決められた大量のパターンを色々なスケール学習画像に対して当てはめたり、
画像の輝度変化などを特徴として抽出する手法がある。
たとえばOpenCVではこの3種類から学習する特徴量を選択できる。
-
Haar-Like特徴量
物体の局所的な明暗差の組み合わせにより、画像を判別する -
LBP(Local Binary Pattern)特徴量
物体の局所的な輝度の分布の組み合わせにより、画像を判別する -
HOG(Histogram of Oriented Gradients)特徴量
物体の局所的な輝度の勾配方向の分布の組み合わせにより、画像を判別する
Haar-Like
Haar-Like特徴
は、画像の明暗差により特徴を捉える。
画像の一部分を切り出し、局所的な明暗差を算出する。
この局所的な特徴をいくつも組み合わせることで、物体を判別できるようになる。
例
ここからOpenCVがHaar-Like特徴を使って顔を検出する動画をみることができる。
https://vimeo.com/12774628
https://www.slideshare.net/MPRG_Chubu_University/ss-32258845
このスライドシェアの20ページ目くらいまでをみると非常に分かりやすい。
アルゴリズム
アルゴリズムは以下となる。
①Haar-like特徴に用いるパターンを複数用意する。
②入力画像の任意の位置に探索窓を配置する。
③探索窓の任意の位置に矩形領域を配置する。
④矩形領域に任意のパターンを設定する。
⑤パターンの黒領域、白領域それぞれの画素値の和の平均A_1, A_2を求める。
そして、それらの差の特徴量Hを求める。
⑥矩形領域の位置・サイズ・パターンを変えて⑤の計算を繰り返す。
⑦検索窓の位置を変えて②~⑥を繰り返す。
つまり、考えられるパターンをたくさん用意し、たくさんの検索窓で所望の局所特徴量が抽出できるかをたくさん試している。
https://algorithm.joho.info/image-processing/haar-like-feature-value/
LBP(Local Binary Pattern)
LBP(Local Binary Pattern)
は1994年に発表された画像特徴量で、
中心画素と周辺画素の画素値の関係性を元に算出される特徴量のこと。
LBPは,原理的にはスケーリングや回転などの幾何学的な変動に頑強ではないが,
輝度変動に頑強で高速に計算できる特徴量として広く引用されている。
さらに識別精度を改善するため,回転変動への対応や他の特徴量との組み合わせなどの工夫が多数提案されている。
ある注目画素に関し、周辺8画素が注目画素よりも輝度値が大きいか小さいかを元に0、1で示しす。この周辺8画素を使い、0 or 1が8bit分(1byte)で表現する。
例
上記のように、対象画像のある範囲のなかで着目しているピクセルの周辺ピクセルが、
着目ピクセルの値より大きいか小さいかでバイナリをつくるのでとても単純である。
HOG(Histogram of Oriented Gradients)
HOG(Histogram of Oriented Gradients)
は2005年に発表されてから、人や車両などを検出するのに一定の精度が認められている。
グレイスケール画像における輝度の勾配を角度ごとにヒストグラム化したものであり,物体の形状を捉え
るのに有効な特徴量である.HOG 特徴量の取得には,まず入力画像をグレイスケール化し,各ピクセルの勾配方向と強度を算出する.その後,セル(5 × 5 ピクセル)ごとに輝度の勾配ヒストグラムを作成して,ブロック(2 ×2 セル) ごとに正規化する.これを順に連結したものを特徴量とする.
https://www.ieice.org/publications/conference-FIT-DVDs/FIT2017/data/pdf/H-032.pdf
画像からの人体・車両検出には、この特徴量をSVM(Support Vector Machine)で分類する手法がメジャーであった。
また、勾配を特徴量としているため、画像スケールに対してロバストであるという優れた特徴がある。
この図解が分かりやすい。
https://www.ite.or.jp/contents/keywords/FILE-20160413114344.pdf
例
上の二枚の画像は実際に自動車の画像からHOG特徴量を取り出したもので、
一枚目の画像からHOG特徴量を計算し、二枚目に可視化している。うっすらとだが二枚目に車体の輪郭が確認できる。
また車体の塗装の境界に強く反応していることがわかる。
アルゴリズム
① 入力画像を複数のブロックに分割。
また、各ブロックをセルに分割する。
③ 微分画像から勾配強度|I|と勾配方向thetaを求める。
④ 勾配方向を9方向(0~180度まで20度ずつ)に量子化する。
⑤ セル毎に強度で重みを付けて勾配方向ヒストグラムを計算する。
h(n)はn番目の勾配方向ヒストグラム。
分母Hは1ブロックのHOG特徴量の総和で次式で計算する。
https://algorithm.joho.info/image-processing/hog-feature-value/
まとめ
dlibやOpenCVが実装しているカスケード分類器とよばれる、
-
Haar-Like特徴量
物体の局所的な明暗差の組み合わせにより、画像を判別する -
LBP(Local Binary Pattern)特徴量
物体の局所的な輝度の分布の組み合わせにより、画像を判別する -
HOG(Histogram of Oriented Gradients)特徴量
物体の局所的な輝度の勾配方向の分布の組み合わせにより、画像を判別する
上記の3つの特徴量について今一度調べてみた。
参考文献
Haar
LBP
http://compsci.world.coocan.jp/OUJ/2012PR/pr_15_a.pdf
https://global.pioneer/en/crdl_design/crdl/rd/pdf/2017-2.pdf
HOG
https://www.pro-s.co.jp/blog/system/opencv/6202
http://96n.hatenablog.com/entry/2016/01/23/100311
https://algorithm.joho.info/image-processing/hog-feature-value/
https://ikatakos.com/pot/programming/python/packages/scikit-image/hog
https://www.ite.or.jp/contents/keywords/FILE-20160413114344.pdf