0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

強化学習 文献まとめ2

Last updated at Posted at 2021-08-03

強化学習 文献まとめ2

リレー解説 強化学習の最近の発展 第2回
「探索と利用のトレードオフとベイズ環境モデル」
計測と制御 第52巻 第2号 2013年2月号 P154~161
牧野 貴樹
https://www.jstage.jst.go.jp/article/sicejl/52/2/52_154/_article/-char/ja/
をまとめた個人用めも

※この記事をまとめたのは2021年5月あたりで、強化学習について勉強し始めのときにまとめたもので、間違った内容が含まれている可能性があります

前回:https://qiita.com/he-mo/items/ec86c0b18dd193ef3aaa
次回:https://qiita.com/he-mo/items/65e0505243934423a966

多腕バンディット問題

バンディッド問題の定義とリグレットの説明

  • バンディッド問題・・・腕が何個もあるルーレットマシーン、腕ごとにルーレットが当たる確率が割り当てられてる
  • リグレット・・・はじめから一番いいものを選択していればいくら得したか

探索をしすぎたらリグレットが大きくなるし、探索しなさすぎたら最適な腕が見つからない

ランダム探索

要するにイプシロングリーディー

不確かなときは楽観的に: UCB アルゴリズム

その腕の良さだけでなく、どれだけ知っているかを考慮する
選んだ回数が少ない・・・分散が大きい
分散も含め一番いいものを選択(報酬の期待値+分散の半分)

Thompson サンプリング

「ある腕の報酬の期待値が他のどの腕の報酬の期待値よりも高い」確率に従って,その腕を選択
https://cafeunder.github.io/rosenblock-chainers-blog/2018/03/08/thompson-sampling-gaussian-sicq-prior.html

その他のバンディット問題

バンディット問題にもいろいろある

  • 敵対的 (adversarial) バンディッ ト (相手が自由に設定を変えられる場合に相当し,確率的仮 定が通用しない)
  • 文脈つきバンディット
  • 連続バンディット (腕が離散ではなく d 次元実数空間上の点で表わされる場合)

強化学習における探索コスト最小化

探索と利用のトレードオフについて
探索すべき未知の状態につながる行動も探す必要がある

楽観的初期価値法

Q学習でいう、最初に与えるQ値を大きくしておく
効率的とは言えない

サンプル複雑性: モデルベース手法

定義

  • サンプル複雑性・・・行動履歴全体の中で最適なものではなかったものの数
  • PAC-MDP・・・サンプル複雑性が小さく抑えられている

PAC-MDPであると認められたアルゴリズム E3、Rmax

一定回数(m回)探索してない選択肢は探索してない物と扱い、高い価値を与える
mが非常に大きくなければならないため実用的ではない

効率的に探索するアルゴリズム モデルベース区間推定 (MBIE, Model-based interval estimation)

各状態–行動ペアに対する報酬と遷移確率に関する信頼区間(分散)を求め,その信頼区間のなかで最大 の価値となるような行動を,モデル上の計算で解く

サンプル複雑性: モデルフリー手法

q学習のようなサンプル複雑性を抑えるアルゴリズム 
Delayed Q- learning
一定回数探索してない選択肢に関しては、その時点ではQ値を更新しない
一定回数後に一気に更新する

ベイズ主義的アプローチ

事前知識を活用できたら探索回数が少なく済む
ベイジアン強化学習と呼ぶ

部分観測マルコフ決定過程

マルコフ決定過程を拡張したもので、環境を全て観測できない
環境を[θ,s]で表し、θは観測できない

ベイジアン強化学習においては、θが事前知識に対応する

手法として、以下の3つがある

共役分布表現を直接利用する方法

事前知識を直接利用、操作
BEETLE、BVRがある

環境モデルのサンプリングに基づく手法

事前知識をサンプリング
Bayesian DP、MBBE、BOSS、MC-BRLがある

モンテカルロ木探索法

θを探索木の探索であると解釈し、モンテカルロ法を用いる
UCT、FSSS、BFS3がある

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?