エスプリフォートでは、DX W(ディー・エックス・ダブル)ラボにてAI画像認識を用いたリアルタイムで自動検知するシステムを、デジタルトランスフォーメーション(DX)として推進中です。
これら技術や他の技術などの使いどころを見極めた上で、顧客への新しい付加価値を創っていっています。
本稿では、エスプリフォートでDX推進中のリアルタイム画像認識や取り組み事例を少しご紹介いたします。
リアルタイム画像認識 YOLO
今までの画像認識のアルゴリズムである”R-CNN系”や”DPM”は、画像の領域推定と分類が分断されています。そのため処理が複雑であり、処理時間もどうしても長くなることも多かった。
そこで、「YOLO」では新しいアプローチとして、画像認識を回帰問題に落とし込み、”画像の領域推定”と”分類”を同時に行うことで実現しました。
「YOLO」のアルゴリズムは1つのCNNで完結するためシンプルであり、また既存の手法と比較して次のようなメリットを得ることができます。
YOLOのメリット
1.シンプルなネットワーク構成による処理の高速化
Titan X GPUの検証では45fps、高速なバージョンであるFast YOLOでは150fpsの結果が出ています。
これは他のリアルタイムシステムの2倍のmAP(mean average precision)を示しています。
2.背景と物体の区別がしやすいため、背景を物体と誤認識しにくい
Fast R-CNNではRegion proposalで抽出した領域のみのコンテキストしか見れないため、背景と判断すべき領域を間違うことがあったが、YOLOは画像全体を見るのでクラス(物体の種類)とその外観に関するコンテキスト情報を暗黙的にエンコード(暗号化)するため、背景の間違いが少ない。
以前トップの検出手法であったFast R-CNNと比較して、YOLOは半分以下の背景エラーであった。
3.推測技術の正確性が高い
花などの自然の画像を学習させてアート作品のような絵の画像でテストした場合、YOLOはDPMやR-CNNよりもはるかに優れている。
YOLOのデメリット
最先端の手法と比較して精度が低く、「小さいもの」の検出が苦手
YOLOは分割されたグリッドサイズは固定で、グリッド内で識別できるクラスは1つ、検出できる物体の数は2つという制約があります。
そのため、グリッド内に大量の物体(オブジェクト)が映ってしまうような画像や小さな物体の検出する場合は物体検出の精度が低くなり、検出が困難になります。
YOLOの活用事例としての一部を紹介します。
- 自動運転
- スマート監視システム
- 顔認識
- 来店顧客の来店者数及び属性分析
- ユーザーがアップロードした画像が不適切であるかの検出
- 展示会やスタジアムでのマスクの未着用者を検出
- 工場における製造製品の不良品検出