未完成記事です。現在、資料を集めつつ、書いています。自分の別の記事(きゅうりの仕分けから始めるAI(2022.5.29))の一項目になっています。随時更新しますので、生暖かい目で見て頂ければと思います。ご意見・アドバイス等は大歓迎です。
物体検出とは
キーワード:画像認識、セグメンテーション
基本的な物体検出についてはSonyの小林さんが分かり易い動画を出して下さっています。まずはこちらの動画を一度見て頂くのが早いかと思います。(参照:「小林(2022.5),"実践Deep Learning:物体検出",YouTube」)
YouTubeの冒頭にもありますが、DeepLearning自体について知りたい方は同じく小林さんが上げて下さっている動画(小林(2022.5),"Deep Learning入門",YouTube)をご覧になると良いと思います。ただ、こちらは結構な量になっている様ですので、ざっくり知りたい方やDeepLearningについては大体分かっている方などはこのまま読んで頂ければと思います。
目標(タスク):一枚の画像の中にある複数の物体を同時に検出
画像に写っている物体の種類、位置、サイズを検出します。画像分類との違いは、一枚の画像の中にある複数の物体を同時に検出できる事です。
学習方法:学習データと教師データ、物体検出器、
学習データと教師データ
画像分類と同じように、元になる入力画像を用意します。次に入力画像に期待する検出結果の画像を用意し、これらのペアを物体検出器で学習します。画像分類とは目標が違うので、教師データが異なります。画像分類では犬の画像には「犬」、猫の画像には「猫」というラベルデータ(具体的にはラベルとなる整数)が使われますが、物体検出では検出するボックスのサイズやラベルが教師データになります。例えば、以下の画像の場合、
信号機に当たる教師データは
の様なテキストデータになります。13が信号機のラベルにあたり、その後の4つの数字が信号機を囲む座標に当たります。この座標の指定の仕方はプログラムによって変わるという認識です。私も自分で実行した数少ない経験から言っているので、ご指摘等頂けると幸いです。
物体検出器
いろいろあります。自分ではやったつもりになっていて実は実行した事が無かったので、詳細は他の記事に任せます。以下の参考1は物体検出の流れがコンパクトにまとまっている印象です。