More than 1 year has passed since last update.

YOLOを活用した物体検出レシピ紹介

Last updated at 2022-08-17Posted at 2021-12-30

Axross Recipeを運営している松田です。
今回は、リアルタイム物体検出のディープラーニングアルゴリズムであるYOLOを解説し、YOLOを活用したレシピについて紹介します。

YOLOの仕組み

YOLOとは

YOLOはリアルタイムオブジェクト検出アルゴリズムです。YOLOという名前の由来は、「You Only Look Once」という英文の頭文字をつなげて作られた造語で、日本語に翻訳すると「一度見るだけで良い」という意味を持っています。

YOLOの物体認識の手法は、予め画像全体をグリッド分割しておき、各領域ごとで物体の種類と位置を求めます。

物体が多数写っている場合は、識別精度が低くなりますが、YOLOでは学習時に一枚の画像の全ての範囲を使うため、背景の誤検出は抑えることができます。

YOLOは現在v５まで出ており、現在進行形で成長しています。
出典：You Only Look Once:Unified, Real-Time Object Detection

YOLOの特長

処理が早い

YOLOは、解析したい画像をコンピューターにインポートするだけで、ニューラルネットワークを使用して画像の中に含まれている物体の領域を識別し、出力できます。YOLOによる物体検出の処理時間は、画像1枚あたり約22msで、他の物体検出モデル（Faster R-CNN）の6～7倍ほどの高速化 を実現しています。

物体検出したい画像が入力された場合、まず、YOLOでは画像のリサイズ作業が行われます。YOLOの特徴として、画像は正方形にリサイズします。縦長や横長の画像も、正方形に一度リサイズすることで、ニューラルネットワークを使用した画像解析がしやすくなるメリットがあります。正方形にリサイズした画像をさらに細かく正方形で分割することも、YOLOのアルゴリズムの特徴です。正方形内に分割されたそれぞれの小さな正方形はグリッド・セルと呼ばれ、グリッド・セルの特徴を基にして物体の検出が進められていきます。グリッド・セルの内容から物体の種類が推定され、それぞれの推定がどれくらいの可能性で的中しているかを考慮しながら、さらに細かく画像の解析が行われていきます。

画像全体を見て予測できる

YOLOで画像に写っている物体の範囲を特定するために使用されているのがバウンディング・ボックスです。
バウンディング・ボックスとは、画像の中に写されている各物体のおおよその範囲を決めるために使用されるボックス型の図形です。
それぞれのバウンディング・ボックスには画像内の位置を表す座標軸が設定され、さらにそのボックス内に含まれているものが物体である可能性についても数値として計算されます。
この数値はコンフィデンス・スコアと呼ばれていますが、個々のボックス内の画像が物体か背景なのかを判断することにより、物体全体の大きさも推定できます。

推測技術の正確性が高い

YOLOでは、グリッド・セルとバウンディング・ボックスの分析により得られたデータの結果を統合することにより、どのような物体が画像内に写っているかを特定できます。
グリッド・セルの分析は個々のセルのクラス・プロバビリティを推測していくことにより行われますが、クラス・プロバビリティとはセル内に写っている物体が特定のクラスに属している可能性のことです。
この数値が高いほど、コンピューターの行ったクラス分けの正確性が高くなります。
このクラス・プロバビリティと前述のバウンディング・ボックスを統合することにより、画像内のどの範囲にどのような物体が写されているのかを大まかに推測することができます。

参考：AI研：YOLOとは？物体検出の手法を大きく進化させたYOLOを徹底解説