主旨:
脳科学の発展には、ネコがたくさん協力してくれている。
スペリー(アメリカ)、ウィーセル(スエーデン)、ヒューベル(アメリカ) 大脳半球の機能分化に関する研究 視覚系の情報処理に関する研究(ネコ)
の研究は1981のノーベル賞を受賞している。
今日紹介するのは、それとはまた別の受動的な子ネコと能動的な子ネコの実験だ。
神経科学などの研究の歴史の中で紹介されることがある。
受動的な子ネコと能動的な子ネコの実験
Conclusion
The findings fit the idea that self-produced movement and concurrent visual feedback are essential for the development of visually-guided behavior.
この発見は、視覚誘導行動の発達には、自己生成運動と同時視覚フィードバックが不可欠であるという考えに合致する。
今の動物実験の基準では倫理的に許されない種類のものだろう。
ゴンドラの中でほぼ同じはずの視覚経験をえているはずなのに、能動的に自分の脚で動いているネコと、
ゴンドラに載せられているだけで、自分の脚の動きとなんら関係を持たない視覚経験をしているネコでは
その時間の中で習得しているものが違ってきていて、視覚誘導行動の発達が損なわれるという主張だ。
ここまではふつうに論文の紹介だ。
能動的な子ネコ
- 自分で選択した行動、それが何を引き起こすのかを、相関関係として、まず知ることになるだろう。
- 自分が前方に進めば、それにともなって筋肉の動き・脚の感触のリズムを生じている。
- 自分が前方に進めば、それにともなって、眼に写るものが移動する。optical flow を生じる。
- 自分自身のバランス感覚とoptical flow とは相関関係を持って関係づけられるようになる。
- だから、自分が傾いたときとかに生じるような一貫性のあるoptical flow を生じる動画を広い範囲で見せると、バランスを崩しやすくなる。
- 能動的な子ネコでは、行動することによって、それらの関係付けを学習している。
- そうして出来上がるのが、自己の身体モデルと世界の物理モデルなのだろう。
受動的な子ネコ
- 自らが行動を起こすわけではないので、注意力を高めている時間というのが存在しにくい。
- 自分の筋肉の動き・脚の触覚のリズムは、自分の眼に見えているものとまったく関係を持たない。
- 眼に写るものが移動する。optical flow を生じる。しかし、それを空間での移動と紐付ける仕組みをもたない。
- 「前に行きたいな」と思ったタイミングに前に進んだとすれば、「前に行きたいな」と思うことだけで先に進めると勘違いをするかもしれない。
視覚を含む大規模言語モデルは自然法則を理解する
- 技術それ自体の話で考えてみる。
- Transfomerベースの視覚情報を含む大規模言語モデルは、近年性能の向上が著しい。
- その中で、動画データを元に、学習を行なっているのもある。
- 適切に学習された視覚言語モデルは、自然法則を理解する。
- 適切に学習されたモデルは、3D形状を理解するし、少しあとの画像の見え方を予測する。
- 重力も、力学も、動物の経験的な動きも適切に学習された視覚言語モデルは再現するだろう。
- ただ、多くの画像は第三者視点による動画である。
受動的な子ネコの限界は、大規模言語モデルでも限界になるかもしれない。
- 動画をベースにする学習では、そのときのカメラの姿勢情報の変化も欠いている。
- 動画をベースとする学習では、自らの行動を決める主体がないまま、移動した結果の動画がある。
- 自己視点画像での動画であっても、その動画の時系列の中に、自らの行動を決める主体は、学習データに含まれていない。
- そういう意味で、受動的な子ネコが見る動画になっていると思う。
- そのため、何に着目して、何を判断して、どう行動したのかを、どこまで大規模言語モデルで学習できるだろうか。
自己視点画像の大規模言語モデルの学習への大幅な追加
- ここ数年の傾向として、自己視点画像のデータ・セットの拡充がある。
- それ以前のデータ・セットと自己視点画像では見え方が違う。
- 自己視点画像では、その画像の中に主体者としての自分自身の一部が写っている。
- 自己視点画像では、行動する主体としての自分自身と行動に関連付けられる言葉とを学ぶことになる。
判断する主体としての身体性を持った大規模言語モデルが作られる。
- 間違いなくロボットは、そのような身体性を持った大規模言語モデルになるだろう。
- 重力を感知し、重力の働いている空間での物体の動きをモデル化するだろう。
- 個々の身体性の違いを考慮しつつ、共通のpre-trained モデルができる。
- deploy先では、限定された身体性でfine-tune されたモデルが使われるだろう。
- 各種センサによる推論の結果が時間遅れをともなっていることを前提として、自らの動作を生成するようになるだろう。
- 「受動的な子ネコ」から「能動的な子ネコ」になったときに、大規模言語モデルはどう変貌するだろうか。