はじめに
- YOLO v5を使ってピースサイン検出をしてみました
- ピースサインの画像のデータセットがなかったのでデータセットを作成し、検出モデルを学習させて、webカメラでの検出を行いました
- データセットの作成からwebカメラで検出するところまで、非常に簡単にできてびっくりしました
- 興味のある方はぜひ遊んでみてください
やったこと
- ピースサインの画像収集
- アノテーション
- 学習
- webカメラでリアルタイム検出
- (おふざけ)検知された顔の部分に他の画像を挿入
開発環境
- Macbook Pro(13インチ, 2019年モデル)
- プロセッサ: 2.4 GHz クアッドコアIntel Core i5
- メモリ: 16GB
ピースサインの画像収集
- 学習に用いるための画像を収集します
- まずGoogle画像検索で「ピースサイン」と入力すると以下のような結果が返ってきます
- 次に画像検索結果を保存します、ここで形式を「ウェブページ、完全」にしてください
- そうすることで、簡単にgoogleの検索画像をまとめて取得することができます
- 取得した画像をそれぞれ見ていき、人間がピースしている写真のみを残しました
- その結果74枚のピースサインの画像を得ることができました
アノテーション
- ピースサイン画像にアノテーションをしていきます
- YOLOv5のgithubによるとroboflowというwebアプリを推奨しているので、こちらを使ってアノテーションを行いました
- ログインするとroboflowの使い方のレクチャーがあるので、それに従います
- 操作自体は非常に直感的に行うことができます
- ピースサインの部分を囲って「peace-sign」というラベルをつけます
- 顔の部分にも「face」というラベルをつけました
- 全ての画像にアノテーションをした後、なんとroboflowでデータ分割やリサイズ、さらに様々なデータ拡張ができます、素晴らしい!!
- 今回は画像の反転と90度回転のデータ拡張を行いました
- そして出力形式に「YPLO v5 Pytorch」を指定し、下のボタンは「show download code」に指定します
- ここに表示されているYour Download Codeを保存してください
学習
- ここからコマンドライン上での作業に入ります
- アノテーションされた自作データセットを用いて、検出モデルを学習させます
- まず、YOLO v5をクローンします
C:\>git clone https://github.com/ultralytics/yolov5
- 次に必要なライブラリをインストールします
- 様々なライブラリをダウンロードするので仮想環境でやると良いと思います 参考記事
cd yolov5
C:\yolov5>pip install -r requirements.txt
-
yolov5/data
の中でroboflowで示されたデータのダウンロードコードを実行します
C:\yolov5/data>curl -L "ダウンロードURL" > roboflow.zip; unzip roboflow.zip; rm roboflow.zip
- 次に自作データセットフォルダの中にある
data.yaml
ファイルの画像ファイルへのパスを変更します
data.yaml
train: data/train/images ##変更
val: data/valid/images ##変更
nc: 2
names: ['face', 'peace-sign']
- 次に4つのモデルの中から好きなモデルを選びます
- 私はローカルの環境で学習させるのでパラメータの少ないYOLOv5sにしました
- そして、学習を行います
C:\yolov5>python train.py --img 640 --batch <バッチサイズ> --epochs <エポック数> --data <data.yalmファイルへのパス> --weights <モデル>
C:\yolov5>python train.py --img 640 --batch 16 --epochs 200 --data data/data.yaml --weights yolov5s.pt
- 学習が終わると
runs/train/exp/weights/best.pt
に学習済みモデルが出力されます - 他にも
runs/train/exp/
フォルダの中にはlossの推移など学習の分析を自動でしてくれるので、それを見てるだけでも面白いですよ!
webカメラでリアルタイム検出
- webカメラでピースサインと顔を検出をします
C:\yolov5>python detect.py --source 0 --weight <出力されたモデルへのパス>
C:\yolov5>python detect.py --source 0 --weight runs/exp/weights/best.pt
- 200枚の学習データでもそこそこ検出することができました!
- データセットの作成からモデルを動すところまで、こんなに簡単にできるなんて驚きました
(おふざけ)検知された顔の部分に他の画像を挿入
- 最後にピースと人間の顔が同時に検出された時に顔がヒカキンになるというシステムを作ってみました
- これはYOLOv5のフォルダにある検出を行うファイルである
detect.py
の検出した部分を囲って表示する部分と囲って表示する関数が定義されているファイルであるutils/plots.py
の2つを変更しました - まず、
utils/plots.py
のAnotatorクラスに以下の関数を追加します
utils/plots.py
def face_change(self, box, face_image, label='', color=(128, 128, 128), txt_color=(255, 255, 255)):
p1, p2 = (int(box[0]), int(box[1])), (int(box[2]), int(box[3]))
p1, p2, p3, p4 = box[0].item(), box[1].item(), box[2].item(), box[3].item()
FACE =cv2.resize(face_image, dsize=(int(p3)-int(p1), int(p4)-int(p2)))
self.im[int(p2):int(p4), int(p1):int(p3)] = FACE
-
次に、
detect.py
を変更します -
detect.py
の実行時のコマンドライン引数にヒカキンの顔の画像ファイルを指定できるようして、run関数内で画像ファイルを読み込み、顔とピースサインが同時に検出された場合に上で定義した関数を呼び出すことで完成します -
そして以下のように実行します
C:\yolov5>python detect.py --source 0 --weight best.pt --<自作の引数> <画像ファイルのパス>
C:\yolov5>python detect.py --source 0 --weight best.pt --face "./changed_faces/hikakin1.jpg"
- できた!