機械学習のアイディアは、それを実装するタイミングがないときに思いつくものである。
特許にするほどの新規性もなく、隠匿しておくことで得られるメリットもない状況にある。
学習用データセットの重要性は、Data-Centric AI という名称でも知られるようになってきている。
それでも、楽して必要な条件を達成するための手法は、まだ発展途上であると考えている。
この文章では、RGBD画像が取得できるカメラを用いて、物体検出を楽にする学習画像を収集することを提案する。
(既に、どこかで誰かが日本語で書いているにちがいないが。)
物体検出の学習用画像の課題
- 2次元画像としての学習であるので、視野の方向が少し変わっただけで、検出できなくなることがある。
- 異なる多様な環境での画像収集が難しい
- bbox(= bounding box)内に背景が占める比率が高い場合、背景部分の特徴を学習してしまう危険
- 意図せずして、背景を学習してしまう危険
提案
RGBD画像を取得できるToFカメラを利用した物体検出の学習
- ToFカメラを利用して対象物のRGBD画像を撮影する。
- その画像RGBD画像から、対象物よりも背後にある領域の透過
RGBDカメラの条件
-
RGBのpixelとDepth(深度)のpixelとが対応がつくこと。なるべくなら、視野角が同じで、RGBカメラの位置とDepthカメラの位置が十分に近いのがよい。
-
Depth(深度)の算出では、欠損値を生じやすい
-
欠損値の種類
- 近距離すぎて算出できない。
- 遠距離すぎて算出できない。
- 受光する信号が弱すぎて算出できない(例:ToF)
- 対応点がとれないので視差を算出できず、Depthが算出できない(例: ステレオ計測)
-
なるべくなら、欠損値が出にくいDepthセンサを用いる。
-
depthの測定に際して、RGB画像を壊さないこと。
- structured light(光構造化法)は、パターン光をRGBの可視領域に光を照射してしまうので適さない。
-
エンドユーザーによるキャリブレーションの必要性が少ないこと
- だれにでも楽に使ってもらうためには、撮影の際のキャリブレーションの必要性が少ないこと。
- 温度によって特性がずれてしまう、ちょっとしたショックで特性がずれてしまうものは、運用時の精度を出しにくい。
-
RGBD画像データを取得するためのインタフェースが、PCで利用可能な標準的なインタフェースであること
候補となるセンサの例
-
市販ToFカメラについて調査中(2023年版)の記事を参考にしてください。
- XVSIO社の製品、HMS社の製品では、RGBカメラとToFカメラの画像との画角が近いものになっています。
-
ステレオカメラ調査(2023年版)
- StereoLabs のZED2なども深層学習でDepthを計算するので、従来手法では欠損点になっていた部分に値が算出できる。