More than 5 years have passed since last update.

Deep Learningによる物体検出手法まとめ

Last updated at 2018-09-14Posted at 2018-08-17

はじめに

物体認識において、Deep Learningによる物体検出手法をまとめます。

OpenPoseの骨格検出を使って、野球の動作解析を進めてきました。
次は、バットやボールといった道具を自動的に検出（座標を取得）したいと考えています。
物体検出にはいろいろな方法があるようなので、まずはその整理を簡単にしてみます。

※.主に各手法の概要を整理したいと思います。具体的なアルゴリズムについては触れません。

物体認識（object recognition）は、画像に写っているものが何であるかを言い当てる処理で、
特定物体認識と一般物体認識に分類されています。

特定物体認識は、ある特定の物体と同一の物体が画像中に存在するかを言い当てる（identification）処理で、一般物体認識は、椅子、自動車、虎など一般的な物体のカテゴリを言い当てる（classification）処理です。

引用：3日で作る高速特定物体認識システム (1) 物体認識とは

画像の中から定められた物体の位置とカテゴリー(クラス)を検出することを指します。

引用：物体検出についての歴史まとめ

下図のように、画像の中からバウンディングボックスと呼ばれる矩形の位置とカテゴリを識別します。

HOG特徴量（*1）を使った物体検出もありますが、ここではDeepLearningを使った手法をまとめます。
物体検出では、アルゴリズムの違いによってR-CNN系、YOLO系、SSD系の大きく３つに分かれるようです。

手法	モデル	主な特徴	実装
R-CNN系	・R-CNN (CVPR 2014) ・SPPnet(ECCV 2014) ・Fast R-CNN(ICCV 2015) ・Faster R-CNN(NIPS 2015) ・Mask R-CNN(arXiv2017)	先駆け、遅い	PyTorch／Keras／TensorFlow／Caffe
YOLO系	・YOLO(CVPR 2016) ・YOLOv2(arXiv2016) ・YOLOv3 (arXiv2017)	速い、多オブジェクトを検出できない	PyTorch／Keras／TensorFlow／Chainer
SSD系	・SSD（ECCV2016) ・DSSD(arXiv2017) ・ESSD ・RefineDet	速い、多オブジェクトを検出可能	PyTorch／Keras／TensorFlow／Chainer

YOLOv3ではYOLOv2に比べて速度を犠牲にして、精度が向上しているようで、なおかつ多オブジェクトも検出可能になっているようです。
YOLOV3-kerasをリアルタイムで使用する

Masc R-CNNでは、ピクセル単位での認識（セグメンテーション）も可能になっており、下図のようにバウンディングボックスだけでなく、物体の境界も識別できています。

速いとは言え、SSDはGPU環境でならリアルタイム検出可能な模様（CUPでは無理っぽい）
SSDでは検出できなかった小さなオブジェクトも Mask R-CNNでは検出できていました

まとめてみましたが、結局どの課題に対して、どの手法が適しているのかは分かりませんでした。。。
さらにそれぞれのモデルを実装したフレームワークにも違いがありそうで、課題に対して、何をどうやって判断・適用していけばいいのか、、、自分の理解不足・スキル不足も相まってもはや闇・・・

一般のプロジェクトではどうやって手法を取捨選択して行ってるのだろう・・・

HOG(Histograms of Oriented Gradients)とは局所領域 (セル) の輝度の勾配方向をヒストグラム化したもの。
引用：画像からHOG特徴量の抽出

歴史（欠点をいかにして克服してきたか）やアルゴリズムに関しては、以下のサイトが参考になりそう。