強化学習 文献まとめ1
リレー解説 強化学習の最近の発展 第1回
「強化学習の基礎」
計測と制御 第52巻 第1号 2013年1月号 P72~77
木村 元
https://doi.org/10.11499/sicejl.52.72
をまとめた個人用めも
※この記事をまとめたのは2021年5月あたりで、強化学習について勉強し始めのときにまとめたもので、間違った内容が含まれている可能性があります
次回:https://qiita.com/he-mo/items/b1689b6df605936e82d3
はじめに
強化学習は教師あり学習と違い、教師データがない代わりに一連の行動に対して報酬を与える。これを手掛かりに学習を行う。ただし、報酬や状態遷移は不確実性(非決定的環境)や時間的遅れがあるため、実行した直後の報酬を見るだけではエージェントはその行動が正しいか判断できない。
エージェントと環境は、以下のやりとりをする
- 時刻t、環境の状態観測stに応じて行動atを実行
- 環境はst+1に遷移、報酬rtをエージェントに与える
- 時刻tをインクリメント
政策反復法と価値反復法
actor-critic
政策反復法の1つ
actorとcriticの2つの要素で構成される
- actor・・・確率的政策(π)にしたがって行動を選択する
- critic・・・状態価値を推定し、政策を改善
πに正規分布を適用することで、連続値にも拡張できる
πにしたがって行動が選択され、改善されていくものをon-policyという
アルゴリズム
- 状態stを観測し、πに従って行動aを選択
- 報酬rを受け取り、状態st+1を観測
- 直前の状態価値よりよい状態か悪い状態かを求め、πを更新
Q学習
価値反復法の1つ
最適な行動価値を求めるアルゴリズム
πとは関係なしに最適なπや最適な行動価値を求められる(off-policyという)
アルゴリズム
- 状態を観測し、行動価値に従って行動aを選択
- 報酬を受け取り、状態を観測
- 行動価値の更新式に基づき、行動価値を更新
行動選択(探査戦略)
Q学習は全ての行動を十分な回数選択すれば、最適な行動価値に収束するが、学習過程においても多くの報酬をえるような行動選択が求められる。
行動選択として下記の3つなどが提案されている。
- イプシロングリーディー
- 一定確率で探索
- ボルツマン選択
- 最初はQ値が均等になる
- 時間が経つにつれてQ値が均等ではなくなる
- 楽観的初期値
- Q値の初期値を高めに設定しておく