• 84
    いいね
  • 0
    コメント

データを集める問題については、最近はwebで記事を書かれているのが増えてきています。
検索して、調べていって、学びとっていきたいところです。

参考になりそうな記事のリンク集です。

伝え聞くところによると、機械学習のためのデータは、手作業で入力データを作成していることが多いと聞きます。
また、目的がはっきりしており、その作業の投資の結果を回収する見通しがある場合には、多数の人を雇って
入力データを手作業で継続的に追加して改良を重ねていると聞きます。

歩行者検出の分野では、歩行者を含まない道路や町並みの画像がとても重要になります。
車載カメラの場合には、車両から見える画角でのデータであることが重要です。
歩行者検出をBoostingで学習させる場合には、人を画像に含まない大量の画像が必要です。
Cascade型の識別器では、後段になればなるほど、紛らわしい画像の比率が高まってきます。
そのようなときに、人画像を見つけ出したのを、negativeとして使ってしまうと、検出器の性能が著しく低下します。
Cascade型の識別器では、後段になればなるほど、学習した結果が、学習させたデータセット(positive画像、negative画像ともに)に依存性が強まったものになりがちです。

 例えば、犬の顔の検出器を作ろうとする場合、既存の検出器で検出できる分だけの犬の顔を集めても、検出器の性能に役立つ画像になるかどうかは確かではありません。柴犬とブルドッグでは、顔の形状が違いすぎます。柴犬の顔だけを集めてもブルドッグの顔を検出できるようになるかは疑わしいと考えます。ある顔向きで検出できたとして、別の顔向きで検出できるとは限りません。ですから、既存の検出器で検出できた画像を用いて、検出器の性能を向上させようとするのは危険です。犬の顔を検出できたシーンの次の時刻の追跡結果を用いるなどの方法で、既存検出器で検出できない画像を用いることができるようにするなどの工夫をすべきです。(このような状況が深層学習ではどうなのかは、私は知りたいところです。)
 深層学習では、横顔を元にして正面顔のデータベースと比較して人物の認証をできると主張されています。

真横を向いた顔でも、サングラスやマスクでも高い照合率
パナソニック、ディープラーニングで世界最高水準の顔照合を実現

多数の種類のオブジェクトを動画から検出するにはYOLOを使うのもよさそうだ。誤検出があっても人力で選びなおす前提ならば、検出速度が高いほうが便利だ。

参考:
機械学習のデータセットの重要性

CIFAR-10, CIFAR-100はラベル付されたサイズが32x32のカラー画像8000万枚のデータセットです。
[Python]CIFAR-10, CIFAR-100のデータを読み込む方法

人(歩行者)関係

顔関係

Face Database

link集
Computer Vision Datasets

CVonline: Image Databases

Yet Another Computer Vision Index To Datasets (YACVID)

60 Facial Recognition Databases