画像認識で、一般物体検出に着手すると、たくさんのアノテーション済みデータを与えて学習・評価を実行することになる。しかし、ネコを幼児がおぼえていくときに、それほどたくさんのネコを見てネコをおぼえていくのではない。
従来の一般物体検出では、黒いヤギをヤギとして検出可能にするためには、とてもたくさんのデータを与える必要がある。(少なくとも白いヤギについての知見を利用して黒いヤギを学習することは標準の枠組みにはない。)
この文では、ヒトが実行しているのは「検出」よりも分類の方が多数なのではないかという仮説を述べる。
同時処理されている内容処理
- 動きによる対象物のセグメンテーション
- 単眼画像からの奥行き推定による対象物のセグメンテーション
-
単眼の画像に対する奥行き推定もここ数年で性能が向上してきている。
-
例: この例では、キャリーケースを持った人物の奥行きが画像に対して良好な結果が得られている。これは、CNNの例にすぎないが、おそらく、ヒトの脳の内部でも、奥行きの解釈を作り上げているはずだ。(少なくとも奥行きの大小関係についての理解なしには、ヒトはあることも困難になるだろう。)
-
仮説
- 同時処理されているセグメンテーション領域に対する分類問題を適用している.
従来の機械学習での検出問題(検出枠ベース)
セグメンテーションの欠如がもたらすもの
- セグメンテーション済みデータを扱うのではないので、対象物と背景との違いを区別できない。
- ポジティブサンプルの網羅性が重要。網羅性が欠如すると、抜けている領域がそのまま未検出の領域となってしまう。
奥行き推定の欠如
- 奥行き推定が欠如しているので、対象物の形状を理解することができない。
- 奥行き推定があれば、照明条件の違いによらない奥行き情報・対象物の形状を理解できるのに対して、奥行き推定が欠如しているので、照明条件の影響を受けやすいまま残る。同一の対象物が照明条件が変わることだけで、検出率は著しく低下する。
提案手法
- 同時処理されるセグメンテーションの結果を元にその領域の分類問題を実行する。
- 分類問題であるために、既知のカテゴリのどれかに近いことをもって、何かしらのカテゴリとして「検出」することができる。
提案手法が解決すると期待する内容
- 例: 物体の領域を返し、可能な限り何かしらのカテゴリで結果を返そうと試みる。 イヌとネコが検出できる検出器に、トラの画像が入力されたときに、既知のカテゴリの範囲でネコと判定するのは、妥当だと考える。奥行き推定ができているときには、対象物の大きさも考慮に入れることができるだろう。そうすると「大きいネコ」となるのは、自然なことだと考える。
- 例: 黒いヤギ問題
提案手法で可能になる理由
1. 白いヤギの知見を利用しつつ少ないデータ数の黒いヤギのデータで学習が可能になる。
- 黒いヤギの見え方についての大量の学習・評価データを必要としない。
- 従来法の場合だと、黒いヤギの検出領域を得るためには、黒いヤギについてのあらゆる見え方を与えなければ、そもそも検出枠の候補に上がってこない。
- それが、白いヤギ・黒いヤギに共通の奥行き情報(形状についての理解)が黒いヤギにも転用可能になる。
- 「ヤギの色は黒いこともある」という知見が加わるには、ごく少数の黒いヤギの画像が加わることだけ可能になる。
2. 分類に失敗しても何か対象物があることを知ることができる。
- depth を推定する流儀を使う限り、何か凸物体があることへの知見を得ることはできるし、対象物への距離と大きさを知ることはできる。
- 凸物体の再現率・適合率は、depth推定の精度にもよるが、物体検出の再現率・適合率よりも高くできるのではないかと予想する。
- これは、RGB画像での物体検出では実現不可能なことである。
- RGB画像からの物体検出の場合には、カテゴリごとに学習を行わなければならない。しかも検出のrecall-rate(再現率)は原理的の1.0になりえない。それぞれのカテゴリでの学習でrecall-rate, precisionの両方を十分に高めないと、さまざまな誤判定の引き金となる。
3. depth 画像からの物体検出は、対象物への遮蔽物の影響(オクルージョン)をうまく扱うことができる。
- 従来のbboxでの物体検出は、オクルージョンの影響を適切に扱うことができなかった。
- 対象物の特徴と遮蔽物の特徴とを分離できないため、遮蔽物の種類によって対象物の検出性能に影響を与えてしまうことがあった。
- また特定の遮蔽物でのオクルージョンを学習させすぎると、特定の遮蔽物に対する検出器ができてしまいやすいという問題もあった。
- depth画像からの物体検出では、前後関係が把握できていることによって、セグメンテーション済みの領域を分類することによって、対象物の検出をすることができる。
一般的な表現に言い直せば
- depth画像やoptical flow ベースでセグメンテーション済みの画像になれば、画像の分離問題に置き換えられるので、検出問題を解くよりは格段に少ない学習データで学習を一般化することができる。
さまざまな「検出ライブラリ」が抱える問題を減らすことができる。
-
さまざまな検出問題は、検出対象に対するポジティブサンプルの網羅性が保証できないという弱点を抱えている。
-
どんなに画像を追加したとしても、それで十分に網羅性が確保できたとは、保証することができない。
-
従来の静止画からの検出にこだわる限り、領域が選択されるかどうかはすべてRGB画像での学習結果に依存してしまうために、それ以外の知見をもとに意味のある情報を救済することができない。
-
RGB画像からの人検出を欺く手法の例
- 以下の文献では、特定のテクスチャの衣類を着用することで、既存の人検出で検出漏れを引き起こすことができることを示したものである。Optical flow などで領域のセグメンテーションに成功すれば、このような事例でも人検出のロバスト性があげられると予想する。
- https://arxiv.org/pdf/2203.03373.pdf
- 以下の文献では、特定のテクスチャの衣類を着用することで、既存の人検出で検出漏れを引き起こすことができることを示したものである。Optical flow などで領域のセグメンテーションに成功すれば、このような事例でも人検出のロバスト性があげられると予想する。
未検出の可能性が残るというシステム設計上の致命的な問題
- 十分に高い適合率を保ったまま、高い再現率を達成するのが難しい。
- しかもそのような指標で評価できるのは、アノテーションが済んでいるデータに限られる。
- 評価シーンを増やしていって、いずれも高い適合率と高い再現率を要求仕様に対して達成したとしよう。
- それでも、未知の追加のシーンでも、同等の水準を満たしてくれるとは、確約できない。
機械学習の物体検出が失敗したときに対するバックアップが、システム設計上必須。
図 歩行者検知機能付き車載リアカメラの第5図
- 人検出が失敗したときへのバックアップのある製品例
[歩行者検知機能付き車載リアカメラ(https://holdings.panasonic/jp/corporate/technology/technology-journal/pdf/v6701/p0112.pdf) - このようにOptical flow の計算や投影差分の計算が必須になるのならば、Optical flow の利用を前提とした「検出」の可能性もあるのではなかろうか。
ヒトの車両認識にOptical flow が利用されている可能性が高い理由
見通しのよい交差点で、他の車両の方位が一定のまま推移するので、optical flow を生じない。そのため、止まっているように見えてしまう。そのため、視覚的な注意がとどかず、車両を視認することができない。
もし、Optical flow を利用せずに、視野全体に対してヒトの脳が物体検出を実施しているのだとすれば、このような見逃しは起きないだろう。
(付記: もちろん、Optical flow だけでセグメンテーションした結果だけで、物体検出をすることは、このような見通しのよい交差点での事故を引き起こすことになるので、不可だ。optical flow や動き差分が生じない限り認識できないとすれば、泳いでいる魚は、いきなりかぶりつかれて命を失うことになる。
追記 2023.6.10
「教師あり学習とは異なり、人間の視覚システムは画像を分類するためだけに訓練されているわけではない。後述するように、特定のタスクと関係なく、視覚世界の構造をとらえるように訓練されている。教師あり学習とは異なり、子どもがゾウの概念を学ぶのに何千サンプルものゾウを必要としないのは、おそらくそのためでである。図案化されたイラストのゾウでも、3枚あれば十分だ。」
『ディープラーニング 学習する機械 ヤン・ルカン、人工知能を語る』p.299