1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

[AI/ML] Model-based RLの利点

Last updated at Posted at 2024-11-09

0. はじめに

Reinforcement Learning(RL)は、Model-BasedとModel-Free RLに大別される[1]。本記事では、自身の備忘録としてModel-Based RLの概要と利点を簡潔に述べる。

1. Model-Free RL

Model-Free RLはデータから直接的にpolicy(stateからactionを決める関数)を学習するものである。RLという言葉を利用する際に、特段の断りがない場合は、こちらを指す場合が多い。

2. Model-Based RL

Model-Based RLでは、先ずデータから環境をModelとして学習し、そのModelを利用してrewardを計算し、最適なactionを選択する。ここでModelとは、Transition Probability(actionによって状態が遷移する確率)を指す

3. Model-Based RLの利点

3.1 分析や説明が容易

Transition Probabilityをモデル化しているため、状態遷移のフローを確率的に示せるため、分析や他者への説明が容易になる。例えば、action選択の根拠を説明する場合など分かりやすい。

3.2 再学習なしのReward計算のカスタマイズ

Model-Based RLの特徴は、Rewardの計算と独立した形で環境をModel化する点にある。従って、再学習することなく、何らかの契機でRewardの計算方法を調整・変更することも可能になる。例えば、ユーザの属性毎にReward計算の方針が異なる場合でも、それぞれに合わせたRewardの計算を実施できる。

4. まとめ

本記事では、Model-Based RLの概要と利点を簡潔に紹介した。

参考文献

[1] https://en.wikipedia.org/wiki/Deep_reinforcement_learning

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?