他の人は、どのように物を見ているのかを知らない。
誰もが同じように物を見ていると思い込んでいる。
色覚などは、二色型色覚(=以前「色盲」と呼ばれたような色覚)のような違いがあることは理屈では知っている。二色性色覚の場合には、区別のつきにくい色があるので、配色を選ぶ際には、二色性色覚の人にとっても区別のつきやすい色を選択するのがよい。
また、斜視という症状があることを知っている。
しかし、斜視の症状の人は、斜視での経験しか持たない。
斜視でない人は、斜視の経験はないので、斜視の人はきっとこのように物を見ているのだろうと推測するしかない。
斜視を克服して立体視を獲得した著者
この本は、長いこと斜視だった人物が、48歳のときに発達検眼医の集中的な訓練を受けて、立体視を獲得した経験を語っているものである。
斜視の人は、協調的に動かせていない両眼の視野が重ならないように、一方の目を極端にそらして、その目からの入力を抑制する習慣になっているそうだ。
眼位を手術によって矯正するだけでは、立体的に知覚することはできない。
著者のスーザン・バリーさん(Susan R. Barry)は、視能療法を受けて、立体視の能力を身についている。
この著者の場合には、視能療法を受けて、立体視の能力を身につけただけではなく、自らも神経生物学者として、既存の画像認識の研究ふまえて、自らの経験とあわせてこの本を執筆している。ヒューベルとウィーセルのネコの視覚に関する研究もその中で述べられている。
視能療法
視能療法の一つは、ブロックひもを使った視覚の訓練だ。ビーズを通したひもの一方を鼻先におき、ひもの端を遠方に伸ばす。そうすると両眼の映像が重なって、ひもが2本あるように見える。「わたしはこの”ブロックひも”の使い方を学んだおかげで、必要なフィードバックが得られ、2つの目がどこに向けられているのかを把握して同じ空間に同時に焦点を合わせられるようになった。」(p.131)
画像認識の視点で興味を覚えた部分
「運動視差による奥行き感覚が向上したことに驚いて、図書館でこの話題に関する文献をさらに読んでみた。そして、わたしたちに立体視力を奥行き感覚もたらすのとまさに同じ神経細胞および脳回路が、運動視差による奥行き感覚をもたらしている可能性があることを知った。つまり、立体的に物が見えるようになったおかげで、動きによる奥行き感覚が高まったかもしれないのだ」(p.175)
」
「思ったとおり、立体視で奥行きを見る能力と動きの情報から物体の構造を予測する能力には関連があることがわかった」(p.177)
以下の内容は、上記の本を離れて、奥行き推定についてのコンピュータビジョンの内容をです。
機械学習での奥行きの推測に関しての理解
単眼画像からの奥行きの推定
- 単眼画像からも奥行きの推定は可能だ。しかし、単眼画像から奥行きを推定するための学習では、奥行きの真値を与えて学習することを前提としている。
- しかしながら、奥行きの真値は、ロボットへのビデオ入力そのままからは得ることができない。
単眼画像から奥行きを推定できる理由についての私の理解
- 面の法線の向きによって、光のあたり方・陰のでき方は変わってくる。
- 光のあたり方・陰のでき方を元に、面の法線の向きを推定できる。
- 法線の向きの情報を積算することで、手前側から奥行き方向への奥行き方向成分の積算値が推測できる。
- その結果、奥行きが推定される。
実際はどうなんだろう。
参考例
https://github.com/ialhashim/DenseDepth
ステレオ画像からの奥行きの推定
- コンピュータビジョンの分野では、画像をステレオ平行化したうえで、視差を求めて、奥行きを推定する手法がある。
- このため、この手法で求めた奥行きを、単眼学習への奥行き推定への学習データにすることが可能だ。
- 視差に基づいて奥行きを算出する手法の大半は、対応点が見つからない領域では、奥行きの欠損値をもつ。
- ステレオ画像からの奥行きと単眼画像からの奥行きの推定とを組み合わせることで、対応点がない領域に対しても奥行きの推定ができないだろうか(あるいは、既に解決した実装はないだろうか)
深層学習を利用したstereo画像からのdepthの推定
従来のマシンビジョンのstereo画像処理では対応点が見つからない画素についてのdepthが欠損値になってしまっていた。
しかし、深層学習を利用したstereo画像からのdepthの推定では、欠損値を生じさせないでdepthの推定ができる。
実装例:
https://github.com/ibaiGorordo/HITNET-Stereo-Depth-estimation
ロボットにとって自らの動きがある場合には、運動からの構造(structure from the motion)ができないだろうか
これらは全て、奥行きの推定という点で共通しているものであり、別個に実装が存在するのではなくて、共通の枠組みになった方が、生物の実現している立体視に近づくのではないかと考えている。