Pythonで物体検出ツールを作成してみた

Last updated at 2025-02-11Posted at 2024-09-25

機械学習、pythonの学習中で、今回は物体検出ツールを作成してみました。

実行環境：Google Colab
※Google Colab は、ブラウザから Python を実行できるサービスです。
Google Colabに関してはこちらの記事を参考

物体検出ツールの作り方

OpenCVのインストール

Python では、豊富なライブラリのおかげで、画像の中から特定の物体を検出するプログラムも簡単に実装できます。
今回は、OpenCV というライブラリを使用して、画像内にある人の顔を検出するツールを作ってみます。

まずは、OpenCV のインストールを行います。

pip install opencv-python

今回作成するツールでは、OpenCV ライブラリに含まれる、事前に訓練された顔検出モデルを使用します。
※もしかすると、最新のGoogle Colabだと既にインストールされているかもしれません。

かるく設計してみる

以下の流れで、処理を設計してみました

画像内のオブジェクト検出に広く使用される「カスケード分類器」というモデルを face_cascade 変数に格納
顔を検出する画像を読み込み
検出精度向上のため、画像を白黒に変換
カスケード分類器で顔の検出を実行
顔であると判定されるオブジェクトを四角形で囲む
画像を表示

実装してみた

物体検出ツール.py

import cv2
from matplotlib import pyplot as plt

# 画像を表示する関数
def show_image(img):
    # OpenCVはBGRで画像を扱うため、表示前にRGBに変換する
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    plt.imshow(img_rgb)
    plt.show()

# 顔検出用のカスケード分類器をロード
face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')

# 検出を行いたい画像を読み込み
img = cv2.imread('test.png')

# グレースケール画像に変換（検出精度向上のため）
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 顔の検出を実行
faces = face_cascade.detectMultiScale(gray, 1.1, 4)

# 検出された顔の周りに矩形を描画
for (x, y, w, h) in faces:
    cv2.rectangle(img, (x, y), (x+w, y+h), (0, 0, 255), 2)

# 画像を表示
show_image(img)

重要な部分だけ説明していきます。

顔検出.py

faces = face_cascade.detectMultiScale(gray, 1.1, 4)

それぞれの引数が何をしているかというと

　- gray（グレースケール画像）
顔検出には、画像をグレースケール（白黒）に変換したものを使います。これにより、色情報を省いて、明暗だけに注目して顔を検出するので、計算が高速で精度も上がります。

　- 1.1（スケールファクター）
これは、顔を検出するために画像を縮小していく倍率を表しています。
スケールファクターは顔の大きさに対応しており、1.1という値は「画像を10%ずつ縮小しながら、異なるサイズの顔を検出する」という意味です。
1.1のように値を小さくすると、縮小のステップが細かくなるので、より多くの異なるサイズの顔を検出しやすくなります。
しかし、処理に少し時間がかかるかもしれません。
例えば、1.2にすると縮小ステップが大きくなり、少し処理が速くなりますが、検出精度が落ちる可能性があるそうです。

　- 4（最小隣接矩形数）
このパラメータは、顔として認識されるために必要な最小の矩形（顔候補の領域）の数を指定します。
値が小さいほど多くの顔を検出する可能性がありますが、ノイズ（間違って顔と認識されるもの）も増えるかもしれません。
4という値は、少なくとも4つの隣接する矩形が重なる場所を顔と判断します。これにより、精度が高まる反面、小さい顔や複数の顔が近くにある場合には検出されないこともあります。
値を大きくすると、より信頼性の高い検出が行われますが、細かい顔や遠くにある顔が見逃される可能性があります。

矩形描画.py

for (x, y, w, h) in faces:
    cv2.rectangle(img, (x, y), (x+w, y+h), (0, 0, 255), 2)

検出された顔ごとに、矩形を描画します。cv2.rectangleを使って、顔の座標（x, y）を基点に、幅（w）と高さ（h）の大きさで赤色の矩形（RGBで 0, 0,255）を描画しています。2は矩形の線の太さです。

結果

精度はまだ荒いですが、顔の部分に矩形を描画することに成功しました！

まとめ

機械学習、python初学者ですが、アウトプットしたことをまとめてみました。
同じ初学者の方の参考になれば幸いです。
最後まで拝読いただき、ありがとうございました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up