[AI/ML] Model-based RLの利点

強化学習

Last updated at 2024-11-10Posted at 2024-11-09

0. はじめに

Reinforcement Learning（RL）は、Model-BasedとModel-Free RLに大別される[1]。本記事では、自身の備忘録としてModel-Based RLの概要と利点を簡潔に述べる。

1. Model-Free RL

Model-Free RLはデータから直接的にpolicy（stateからactionを決める関数）を学習するものである。RLという言葉を利用する際に、特段の断りがない場合は、こちらを指す場合が多い。

2. Model-Based RL

Model-Based RLでは、先ずデータから環境をModelとして学習し、そのModelを利用してrewardを計算し、最適なactionを選択する。ここでModelとは、Transition Probability（actionによって状態が遷移する確率）を指す。

3. Model-Based RLの利点

3.1 分析や説明が容易

Transition Probabilityをモデル化しているため、状態遷移のフローを確率的に示せるため、分析や他者への説明が容易になる。例えば、action選択の根拠を説明する場合など分かりやすい。

3.2 再学習なしのReward計算のカスタマイズ

Model-Based RLの特徴は、Rewardの計算と独立した形で環境をModel化する点にある。従って、再学習することなく、何らかの契機でRewardの計算方法を調整・変更することも可能になる。例えば、ユーザの属性毎にReward計算の方針が異なる場合でも、それぞれに合わせたRewardの計算を実施できる。

4. まとめ

本記事では、Model-Based RLの概要と利点を簡潔に紹介した。

参考文献

[1] https://en.wikipedia.org/wiki/Deep_reinforcement_learning

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up