強化学習

Last updated at 2019-11-07Posted at 2017-02-01

「機械学習と深層学習」の文献中に例題として取り上げられているプログラムを実装してみる。
文献ではC言語でプログラムを記述しており、これをPythonで自分なりに実装してみた。
今回は強化学習による迷路抜け知識の学習を取り上げる。

強化学習とは

例）将棋

教師あり学習の場合
コンピュータプレイヤーが一手ごとにその手の評価を先生から教わる方法
- 効率的な学習は可能だが、大量の教師データを用意する必要があり大変
- 一手だけ取り出してその手が正しいかどうかは、多くの場合判断することができない
強化学習の場合
一連の着手が終了した後に評価を得て、その評価に基づいて学習を進める
- ゲームの勝敗によって評価（勝ち、負け、引き分け） → 報酬
- 最終の評価から、一手一手の行動に関する知識を学習する

例）将棋

学習の初期の行動はランダムに選択される
初期状態でたまたま目標とする行動パターンに近いものが現れることがある
→ この時に得た報酬によってその行動パターンのQ値が増加
→ 次回からその行動パターンが選択されやすくなる

これでは…
　報酬に直結する行動のQ値が改善されるだけで、初期の行動に対するQ値はランダムに決定された値のまま更新されない

そこで
　次の行動に移ったとき、選択可能な行動に対するQ値の中で、最大のQ値に比例する値を直前のQ値に加える

こうすることで
　学習を繰り返していくと報酬を得ることができる行動パターンに対するQ値が増加する

Q_{s_t,a_t} = Q_{s_t,a_t} + α(r + γ・max・Q{s_{t+1},a_{t+1}} - Q_{s_t,a_t})

行動選択はQ値の大きい行動を優先する
→ 初期のランダムに決まったQ値がたまたま大きな値となった行動だけが常に選択されてしまう

そこで

こうすることで
　Q値の初期値に依存することなく、様々な行動に対する適切なQ値の学習が可能となる

プログラム => Github