はじめに
ロボットに対する、気質の実装にはいろいろな方法がありそうです。
今回は、機械学習のパラメータでの実装を考えます。
つぎのパラメータについて検討していきます。
学習率α(アルファ)、割引率γ(ガンマ)、行動選択率ε(イプシロン)、ドロップアウト率
気質 とは
気質(Temperament,テンプロメント)とは Wiki(https://ja.wikipedia.org/wiki/気質) では
- 人間や哺乳類などの動物の集団が先天的にもっている刺激などに反応する行動特性である。
- 性格 (Character,キャラクター)と同一視されやすいが、性格は気質から作られる各個体の行動や意欲の傾向である。
- 一卵性双生児では気質が極めてよく似ている。
気質の因子
研究者により、いろんな気質因子の定義がありそうです。つぎのクロニンジャーの分類がシンプルで実装向きです。クロニンジャー理論は、神経伝達物質との関係まで視野にいれていて、良い感じです。
Temperament and Character Inventory, C. Robert Cloninger
https://en.wikipedia.org/wiki/Temperament_and_Character_Inventory
https://en.wikipedia.org/wiki/C._Robert_Cloninger
番号 | 気質因子 | 気質因子(英語名) | 車では | 神経伝達物質 | 高い | 低い |
---|---|---|---|---|---|---|
1 | 新奇性探求 | Novelty seeking | アクセル | ドーパミン | 新しもの好き | 頑固 |
2 | 損害回避 | Harm Avoidance | ブレーキ | セロトニン | 心配性 | リスクを好む |
3 | 報酬依存 | Reward Dependence | クラッチ | ノルアドレナリン | 共感的 | 孤立 |
4 | 固執 | Persistence | トラクションコントロール | - | 完璧主義 | 適当 |
例えば、「冒険家」は、「新奇性探求」が高く、「損害回避」が低く、「報酬依存」が低いようです。
神経伝達物質の性質
クロニンジャー理論に現れる、神経伝達物質(シナプス間隙に放出され情報伝達を介在する物質)の性質は、つぎのようになっています。
(1)ドーパミン
アドレナリン、ノルアドレナリンの前駆物質で、快感、やる気、痛み、驚きだどの情報伝達に関わる
(2)セロトニン
ドーパミンやノルアドレナリンなどの感情的な情報をコントロールし、精神を安定させる働きがある。
(3)ノルアドレナリン
注意と衝動性と関連する。アドレナリンと共に、この化合物は闘争あるいは逃避反応を生じさせる。
(注)「アドレナリン」は神経伝達物質ではなくホルモン(生理活性物質)です。交感神経を興奮させたり、各臓器に興奮系のシグナルを送ります。
ロボットの気質
強化学習のパラメータ
機械学習のひとつに強化学習があります。強化学習は、教師無しで、ロボットが試行錯誤しながら行動の選択を学習していく技術です。(https://ja.wikipedia.org/wiki/強化学習)
代表的な強化学習の手法として、Q学習(Q-learning)があります。(https://ja.wikipedia.org/wiki/Q学習)
Q学習では、ある時刻$t$の状況$s_{t}$で、選択する行動を$a$とすると、その行動選択の有効性$Q(s_{t},a)$は、つぎの更新式で計算されます。
Q(s_{t},a)\leftarrow Q(s_{t},a)+\alpha \Bigl( r_{t+1}+\gamma \max _{p}Q(s_{t+1},p)-Q(s_{t},a)\Bigr)
意味的には、次状態有効性の最大値を現在に割り引いたものに、現在有効性を近づけます。
ここで、
学習率$\alpha$: 1回の試行結果について、どれだけ学習するか決める。
割引率$\gamma$: 次時刻のQ値を現在時刻に割り引く係数。
報酬$r_{t+1}$: $s_{t+1}$ に遷移した時に得る報酬。
ε-グリーディ手法(強化学習パラメータ)
行動選択率ε-グリーディ手法は、確率εでランダムに行動を選択し、それ以外では Q値の最大の行動を選択する手法です。常に、Q値の最大の行動だけを選択すると、現在Q値の低い選択が、未来にはとてもよい結果を生む場合を学習できません。
ドロップアウト率(深層学習パラメータ)
ディープラーニング(深層学習)は、多層のニューラルネットワークを使用してパターン認識を学習します。(https://ja.wikipedia.org/wiki/ディープラーニング)
ドロップアウトはランダムに任意のニューロン(次元)を何割か無視してしまう技術です。
過学習(丸暗記)を防ぎ、対象データの本質を把握させるために、ドロップアウトが行われます。
気質と強化学習パラメータの対応
機械学習パラメータと気質との対応を、無理やりつぎのように考えます。3、4列目が機械学習パラメータです。「報酬依存」は、かなり違和感があります。
番号 | 気質因子 | 機械学習パラメータ名 | パラメータの超意味 | 高い | 低い |
---|---|---|---|---|---|
1 | 新奇性探求 | 行動選択率ε | 新領域の探索割合 | 新しもの好き | 頑固 |
2 | 損害回避 | 学習率α | 自身の変化速度 | 心配性 | リスクを好む |
3 | 報酬依存 | 割引率γ | 推定した未来安定度 | 共感的 | 孤立 |
4 | 固執 | ドロップアウト率 | 事象の本質探索度 | 完璧主義 | 適当 |
おわりに
未来のロボットには、気質、性格、人格を設定する「つまみ」がついているはずです。
そんなロボットに早く会いたい。
目指せ、前人未到。
参考情報
クロニンジャーのパーソナリティ理論入門: 自分を知り,自分をデザインする 2014/11/20 木島 伸彦 http://amzn.asia/d/cAzP9l6
https://ja.wikipedia.org/wiki/気質
https://ja.wikipedia.org/wiki/性格
https://ja.wikipedia.org/wiki/ドーパミン
https://ja.wikipedia.org/wiki/ノルアドレナリン
https://ja.wikipedia.org/wiki/セロトニン
https://ja.wikipedia.org/wiki/強化学習
https://ja.wikipedia.org/wiki/Q学習
性格、人格、気質を、アドラー心理学はどう見るのか https://site316.com/archives/2614
Q学習やってみた - 人工知能の性格を変えてみる https://pondad.net/qlearning/2017/04/24/qlearning.html