0. はじめに
Reinforcement Learning(RL)は、Model-BasedとModel-Free RLに大別される[1]。本記事では、自身の備忘録としてModel-Based RLの概要と利点を簡潔に述べる。
1. Model-Free RL
Model-Free RLはデータから直接的にpolicy(stateからactionを決める関数)を学習するものである。RLという言葉を利用する際に、特段の断りがない場合は、こちらを指す場合が多い。
2. Model-Based RL
Model-Based RLでは、先ずデータから環境をModelとして学習し、そのModelを利用してrewardを計算し、最適なactionを選択する。ここでModelとは、Transition Probability(actionによって状態が遷移する確率)を指す。
3. Model-Based RLの利点
3.1 分析や説明が容易
Transition Probabilityをモデル化しているため、状態遷移のフローを確率的に示せるため、分析や他者への説明が容易になる。例えば、action選択の根拠を説明する場合など分かりやすい。
3.2 再学習なしのReward計算のカスタマイズ
Model-Based RLの特徴は、Rewardの計算と独立した形で環境をModel化する点にある。従って、再学習することなく、何らかの契機でRewardの計算方法を調整・変更することも可能になる。例えば、ユーザの属性毎にReward計算の方針が異なる場合でも、それぞれに合わせたRewardの計算を実施できる。
4. まとめ
本記事では、Model-Based RLの概要と利点を簡潔に紹介した。
参考文献
[1] https://en.wikipedia.org/wiki/Deep_reinforcement_learning