強化学習とは
エージェントが収益を最大化するような行動の選択を繰り返す学習.
頻出単語
用語 | 意味 |
---|---|
エージェント | ある環境で動くプレイヤー |
状態 | エージェントが置かれている状況 |
行動 | エージェントが取る行動 |
収益 | エージェントが行動することによって得られる評価値 |
方策 (policy) | ある状態の時,取りうる行動の選択肢及びどの行動を取るべきか示す関数 |
ステップ | 状態,行動,報酬のやり取りを進める時刻の区切りのこと |
エポック | |
活用 | 現在知っている情報の中から報酬が最大となる行動を選ぶこと. |
探索 | 現在知っている情報以外の情報を獲得するために行動を選ぶこと. |
Deep Q-Network (DQN) | 価値観数の計算を近似計算するディープニューラルネットワーク.DeepMind社が開発.DQNを用いる強化学習を,深層強化学習とよぶ. |
バンディットアルゴリズム (bandit algorithm)
ε-greedy方策(epsilon-greedy policy)
報酬が最大となる行動を選択(活用)するが,一定確率でεで探索する(= ランダムな行動を選択する)というもの.
UCB方策(upper-confidence bound policy)
複数の行動に対してスコアを計算し,スコアが最大な行動を選択するというもの.
参照:
ALBERT Official Blog バンディットアルゴリズム基本編
マルコフ決定過程 (Markov decision process)
次のステップの状態は,現在の状態にのみ依存するというマルコフ性 を仮定したモデルのこと.
価値関数,Q値
エージェントの状態や行動の価値が最大となるような学習を将来的に得られる収益の期待値を示す関数. Q値(Q-value) ともよぶ.Q値を最適化する手法として,Q学習 や SARSA などが挙げられる.
状態価値関数と,行動価値関数が存在するが,基本的には行動価値関数のことを指す.状態や行動の「価値」を設定し,その価値が最大となれば,強化学習の目的である,報酬が最大となるよう最適な方策を選択できるようになるのでは?という考え方が根底にある.
方策勾配法
方策を決定する関数のパラメータを,累積報酬の期待値が最大となるように学習する手法のこと.行動の選択肢が大量にある場合の課題で用いられる.
REINFORCE
方策勾配ベースの具体的な手法の1つ.
Actor-Critic
価値関数ベースと方策勾配ベースのアプローチの複合形.行動を決めるActorと,方策を評価するCriticから成り立つ.
A3C (Asynchronous Advantage Actor-Critic)
Actor-Criticの応用形.
見るべき解説動画
数式を交えた解説
Q値についての説明で詳しく尺が設けられている.
深層強化学習について