逆強化学習(IRL)の評価指標に何があるか調べた(雑な)メモ。問題特化型の指標は扱わない。随時追加。
Reward Loss
- Ramachandran, D. and Amir, E. [2007]. Bayesian Inverse Reinforcement Learning.
真の報酬$R$と推定した報酬$\tilde{R}$の差のノルム。
L(\pi) = \|R - \tilde{R} \|_{n}
IRLは不良設定(ill-posed)問題なので、このような指標は(多くの場合)意味がない。報酬を正確に推定したいときに。
時折出てくる「重み$w$の差」とか「特徴量の差」とかも同類の気がする。
エキスパートと学習者の距離
エキスパート軌跡と学習者の方策の距離,となりそうなもの.
Expected Value Difference (EVD)
「期待価値差」。Value(価値)とは状態価値のことか。
- Levine, S., Popovic, Z., and Koltun, V. [2011] Nonlinear Inverse Reinforcement Learning with Gaussian Processes.
- Abbeel, P., and Ng, A. Y. [2004] Apprenticeship learning via inverse reinforcement learning.
後者ではEVDとは呼ばれていないが、同じ定式化が見られる。論文式(6)-式(9)を参照。
IRLではよく出てくる指標。非負(0でエキスパートと一致)であり,小さいほどエキスパートに近い。
\operatorname{EVD}(\pi) = {V^{*}}_{R} - {V^{\pi}}_{R} \\
= \mathbb{E} \Bigl [ \sum_{t=0}^{\infty} \gamma^{t} R(s_t) | {\pi^{*}} \Bigr ] - \mathbb{E} \Bigl [ \sum_{t=0}^{\infty} \gamma^{t} R(s_t) | \pi \Bigr ]
ここで,
- $R$ : 真の報酬
- $\pi^{*}$ : 真の報酬$R$に従って学習した最適方策
- $\pi$ : 推定報酬$\tilde{R}$に従って学習した最適方策
注意されたいのは、「真の報酬$R$のもとで,最適方策$\pi^{*}$と調べたい方策$π$との状態価値(=割引累積報酬の期待値)の差」である。真の報酬が未知の場合は使えない。正確に計算する場合は、方策反復(Policy Iteration)の方策評価(Policy Evaluation)を使って求める方法がある。
Policy Loss
- Ramachandran, D. and Amir, E. [2007]. Bayesian Inverse Reinforcement Learning.
EVDよりもうちょい一般的な形。
L(\pi) = \|{V^{*}}_{R} - {V^{\pi}}_{R}\|_{p}
Negative Log Likelihood (NLL)
「負の対数尤度」。「交差エントロピー」(cross entropy)とも言う。
Kitani版
- Kitani, K. M., Ziebart, B. D., Bagnell, J. A., and Hebert, M. [2012] Activity Forecasting.
推定した報酬に従って学習した方策$\pi$のもとでの軌跡の(?)NLL。
\operatorname{NLL}(\pi) = \mathbb{E}_{\pi} \Bigl [ - \ln \prod_t \pi (a_t|s_t) \Bigr ]
Kitani先生が関わっている論文で使われている。
Uchibe版
- Uchibe, E., and Doya, K. [2014] Inverse Reinforcement Learning Using Dynamic Policy Programming.
真の報酬$R$のもとでの最適方策からサンプリングした状態行動対$(s,a)$のデータセットを$\mathcal{D}^{*}$とするとき、推定した報酬$\tilde{R}$のもとで学習した方策$\pi$のNLL。
\operatorname{NLL}(\pi) = - \frac{1}{\mathcal{D}^{*}} \sum_{(s,a) \in \mathcal{D}^{*}} \ln \pi(a|s)
Wasserstein距離
- Dadashi, R., Hussenot, L., Geist, M., and Pietquin, O. [2020]. Primal Wasserstein Imitation Learning.
- OpenReview版
- 参考: Imitation Learning in the Low-Data Regime
詳細は目下確認中.真の報酬にアクセスできない場合の,逆強化学習にも使えそうな尺度だと思います.
累積報酬の期待値
推定した報酬$\tilde{R}$のもとで学習した方策$\pi$ が1エピソードで獲得する真の報酬$R$の合計の平均.
R_{\pi} = \mathbb{E}_{\pi} \Bigl [\sum_{t=0}^{\infty} R(s_{t}) \Bigr ]
MujocoタスクなどでEVDを計算するのは難しいので,最近はこれが多い.