More than 5 years have passed since last update.

深層強化学習入門

Posted at 2020-04-05

はじめに

僕自身まだ深層学習を初めて間もない初心者ですが、偶然図書館で見つけた
「つくりながら学ぶ！深層強化学習 PyTorchによる実践プログラミング」
という本を読んで深層強化学習に非常に興味を持ちました。

この記事は自分の備忘録として、
「深層強化学習とはどういうものなのか」
をまとめた記事となっています。

強化学習とは

教師あり学習、教師なし学習に並ぶ機械学習の一種であり、簡単に言うと
「人間がHowを教えなくても様々な問題の解決策をみいだすことができる方法」といったものです。

例えば
「子供が自電車に乗れるようになる」ということを例として考えてみます。

このとき子供は、力学の知識を教えてもらったり、youtubeで「自転車　乗り方」と調べて動画から学ぶわけでもありません。

実際に自転車に乗ってみて、何度も失敗して試行錯誤をしながらうまく乗れる方法を見つけます。

強化学習はこの自転車の例のように、対象を支配している物理法則を知らない状態で試行錯誤を繰り返しながら、望ましい制御方法を学ぶ学習方法というわけです。

強化学習の概要

強化学習は下図のようなイメージで説明されます。

これを見てもよくわからないと思うので、「スーパーマリオブラザーズ」を例にして用語の意味から説明していきます。

エージェント（agent）

行動を行う人物または物体を指します
ここでのエージェントは「マリオ」
になります。

状態（state）

エージェントのいる環境の様子
s_ttでの環境の様子
例）マリオ、クリボーの位置など

行動（action）

エージェントが環境に働きかける行動
a_ttでの行動
例）クリボーを踏む、ファイアボールを放つ

報酬（reward）

環境からエージェントに与えられる評価
r_t　:tでの環境からの評価
例）コインを獲得、敵を倒すことにより得られるスコア

方策（policy）

エージェントの行動パターン
π(s,a):状態ｓで行動をとる確率として合わらすことが多い
例）

マリオの行動	選択確率
ジャンプ	0.3
進む	0.1
ファイア	0.5
下がる	0.1

収益（return）

報酬の和　R_t
割引率γを導入して未来で得る報酬をどの程度割り引くか調整する

R_t=r_t+γr_{t+1}+γ^2r_{t+2}+γ^3r_{t+3}+...

この割引率γ（0~1）をどのように設定するかで未来の報酬をどれくらい重要視するか決まります。

例えば
・γ＝１の時(すべての報酬が同じ大事さ)

R_t=r_t+r_{t+1}+r_{t+2}+r_{t+3}+...

・γ=0.9（未来のことも重視）

R_t=r_t+0.9r_{t+1}+0.81r_{t+2}+0.729r_{t+3}+...

・γ＝０（いまを生きる）

R_t=r_t

γはハイパーパラメータで、人が調整しなければなりません。多くの場合は0.995など1に近い値が使われることが多いそうです。

マリオの例を図に表すとこんな感じですね

強化学習の目標

さて、これまで強化学習に必須な用語を説明してきましたが、これらを使ってどのように学習するの？と思われた方もいるかもしれません。

それはずばり
報酬の総和、つまり収益を最大化できるように学習を進めていく
というやりかたです。

具体的にはどうやって？となると思うので、これからそのアルゴリズムについて書いていきます。

アルゴリズム

「報酬を最大化する」といっても、上記の式は行動、状態を含んでいないので行動を再現できません。
ではどのようにして、「報酬を最大化」するのかというと

価値反復法
方策反復
etc

など様々なアプローチがあります。

以降価値反復法の一種である、Q学習について説明します。

Q学習

Q学習では、行動価値関数（Q関数）を更新してくことで学習を進めていきます。

Q関数とは

状態ｓで行動aを行ったときの収益を推定する関数

一番簡易的なQ関数の表し方はテーブル方式のものです

状態s/行動a	1.ファイア	2.ダッシュ
１.残り時間が少ない	1	9
2.クリボーが目の前にいる	8	1
＊数字は報酬を表す

式で表すと

Q(s=1、a=1)=１

Q(s=2、a=1)=8

と、こんな感じになります

Q関数の更新式

Q関数の更新式は

Q(s_t,a_t )=Q(s_t,a_t )+α*（r_{t+1}+γmax_aQ(s_{t+1},a)-Q(s_t,a_t )

と表せます。
αはステップサイズ（学習率）を表します
正直この式の意味は完全に理解していないのですが、こんな感じで更新されるんだー、てくらいの認識でいいと思います。

この更新式を使った更新は以下の通りです。

Q(s, a) を任意に初期化
各エピソードに対し繰り返し：
- sを初期化
- エピソードの各ステップに対して繰り返し：
  - Q関数と探索を使って、sでの行動aを選択する
  - 行動aを取り、r, s' を観測する
  - Q(s, a) ← Q(s, a) + α[r + γmax_a′ Q(s', a') - Q(s, a)]
  - s ← s';
- sが終端状態ならば繰り返しを終了