ロボットの気質と機械学習

Last updated at 2018-12-09Posted at 2018-12-09

はじめに

ロボットに対する、気質の実装にはいろいろな方法がありそうです。
今回は、機械学習のパラメータでの実装を考えます。
つぎのパラメータについて検討していきます。

学習率α（アルファ）、割引率γ（ガンマ）、行動選択率ε（イプシロン）、ドロップアウト率

気質とは

気質(Temperament,テンプロメント）とは Wiki(https://ja.wikipedia.org/wiki/気質) では

人間や哺乳類などの動物の集団が先天的にもっている刺激などに反応する行動特性である。
性格 (Character,キャラクター）と同一視されやすいが、性格は気質から作られる各個体の行動や意欲の傾向である。
一卵性双生児では気質が極めてよく似ている。

気質の因子

研究者により、いろんな気質因子の定義がありそうです。つぎのクロニンジャーの分類がシンプルで実装向きです。クロニンジャー理論は、神経伝達物質との関係まで視野にいれていて、良い感じです。

Temperament and Character Inventory, C. Robert Cloninger
https://en.wikipedia.org/wiki/Temperament_and_Character_Inventory
https://en.wikipedia.org/wiki/C._Robert_Cloninger

番号	気質因子	気質因子(英語名)	車では	神経伝達物質	高い	低い
1	新奇性探求	Novelty seeking	アクセル	ドーパミン	新しもの好き	頑固
2	損害回避	Harm Avoidance	ブレーキ	セロトニン	心配性	リスクを好む
3	報酬依存	Reward Dependence	クラッチ	ノルアドレナリン	共感的	孤立
4	固執	Persistence	トラクションコントロール	-	完璧主義	適当

例えば、「冒険家」は、「新奇性探求」が高く、「損害回避」が低く、「報酬依存」が低いようです。

神経伝達物質の性質

クロニンジャー理論に現れる、神経伝達物質（シナプス間隙に放出され情報伝達を介在する物質）の性質は、つぎのようになっています。

(1)ドーパミン
アドレナリン、ノルアドレナリンの前駆物質で、快感、やる気、痛み、驚きだどの情報伝達に関わる

(2)セロトニン
ドーパミンやノルアドレナリンなどの感情的な情報をコントロールし、精神を安定させる働きがある。

(3)ノルアドレナリン
注意と衝動性と関連する。アドレナリンと共に、この化合物は闘争あるいは逃避反応を生じさせる。

(注)「アドレナリン」は神経伝達物質ではなくホルモン（生理活性物質）です。交感神経を興奮させたり、各臓器に興奮系のシグナルを送ります。

ロボットの気質

強化学習のパラメータ

機械学習のひとつに強化学習があります。強化学習は、教師無しで、ロボットが試行錯誤しながら行動の選択を学習していく技術です。(https://ja.wikipedia.org/wiki/強化学習)
代表的な強化学習の手法として、Q学習（Q-learning）があります。(https://ja.wikipedia.org/wiki/Q学習)

Q学習では、ある時刻$t$の状況$s_{t}$で、選択する行動を$a$とすると、その行動選択の有効性$Q(s_{t},a)$は、つぎの更新式で計算されます。

Q(s_{t},a)\leftarrow Q(s_{t},a)+\alpha \Bigl( r_{t+1}+\gamma \max _{p}Q(s_{t+1},p)-Q(s_{t},a)\Bigr)

意味的には、次状態有効性の最大値を現在に割り引いたものに、現在有効性を近づけます。
ここで、
学習率$\alpha$:　１回の試行結果について、どれだけ学習するか決める。
割引率$\gamma$:　次時刻のQ値を現在時刻に割り引く係数。
報酬$r_{t+1}$:　 $s_{t+1}$ に遷移した時に得る報酬。

ε-グリーディ手法（強化学習パラメータ）

行動選択率ε-グリーディ手法は、確率εでランダムに行動を選択し、それ以外では Q値の最大の行動を選択する手法です。常に、Q値の最大の行動だけを選択すると、現在Q値の低い選択が、未来にはとてもよい結果を生む場合を学習できません。

ドロップアウト率（深層学習パラメータ）

ディープラーニング(深層学習)は、多層のニューラルネットワークを使用してパターン認識を学習します。(https://ja.wikipedia.org/wiki/ディープラーニング)
ドロップアウトはランダムに任意のニューロン（次元）を何割か無視してしまう技術です。
過学習（丸暗記）を防ぎ、対象データの本質を把握させるために、ドロップアウトが行われます。

気質と強化学習パラメータの対応

機械学習パラメータと気質との対応を、無理やりつぎのように考えます。３、４列目が機械学習パラメータです。「報酬依存」は、かなり違和感があります。

番号	気質因子	機械学習パラメータ名	パラメータの超意味	高い	低い
1	新奇性探求	行動選択率ε	新領域の探索割合	新しもの好き	頑固
2	損害回避	学習率α	自身の変化速度	心配性	リスクを好む
3	報酬依存	割引率γ	推定した未来安定度	共感的	孤立
4	固執	ドロップアウト率	事象の本質探索度	完璧主義	適当