More than 3 years have passed since last update.

逆強化学習の評価指標

Last updated at 2020-12-12Posted at 2019-09-13

逆強化学習(IRL)の評価指標に何があるか調べた（雑な）メモ。問題特化型の指標は扱わない。随時追加。

Reward Loss

Ramachandran, D. and Amir, E. [2007]. Bayesian Inverse Reinforcement Learning.

真の報酬$R$と推定した報酬$\tilde{R}$の差のノルム。

L(\pi) = \|R - \tilde{R} \|_{n}

IRLは不良設定(ill-posed)問題なので、このような指標は(多くの場合)意味がない。報酬を正確に推定したいときに。
時折出てくる「重み$w$の差」とか「特徴量の差」とかも同類の気がする。

エキスパートと学習者の距離

エキスパート軌跡と学習者の方策の距離，となりそうなもの．

Expected Value Difference (EVD)

「期待価値差」。Value（価値）とは状態価値のことか。

Levine, S., Popovic, Z., and Koltun, V. [2011] Nonlinear Inverse Reinforcement Learning with Gaussian Processes.
Abbeel, P., and Ng, A. Y. [2004] Apprenticeship learning via inverse reinforcement learning.

後者ではEVDとは呼ばれていないが、同じ定式化が見られる。論文式(6)-式(9)を参照。

IRLではよく出てくる指標。非負（0でエキスパートと一致）であり，小さいほどエキスパートに近い。

\operatorname{EVD}(\pi) = {V^{*}}_{R} - {V^{\pi}}_{R} \\
= \mathbb{E} \Bigl [ \sum_{t=0}^{\infty} \gamma^{t} R(s_t) | {\pi^{*}} \Bigr ] - \mathbb{E} \Bigl [ \sum_{t=0}^{\infty} \gamma^{t} R(s_t) | \pi \Bigr ]

ここで，

$R$ : 真の報酬
$\pi^{*}$ : 真の報酬$R$に従って学習した最適方策
$\pi$ : 推定報酬$\tilde{R}$に従って学習した最適方策

注意されたいのは、「真の報酬$R$のもとで，最適方策$\pi^{*}$と調べたい方策$π$との状態価値（＝割引累積報酬の期待値）の差」である。真の報酬が未知の場合は使えない。正確に計算する場合は、方策反復(Policy Iteration)の方策評価(Policy Evaluation)を使って求める方法がある。

Policy Loss

Ramachandran, D. and Amir, E. [2007]. Bayesian Inverse Reinforcement Learning.

EVDよりもうちょい一般的な形。

L(\pi) = \|{V^{*}}_{R} - {V^{\pi}}_{R}\|_{p}

Negative Log Likelihood (NLL)

「負の対数尤度」。「交差エントロピー」（cross entropy）とも言う。

Kitani版

Kitani, K. M., Ziebart, B. D., Bagnell, J. A., and Hebert, M. [2012] Activity Forecasting.

推定した報酬に従って学習した方策$\pi$のもとでの軌跡の（？）NLL。

\operatorname{NLL}(\pi) = \mathbb{E}_{\pi} \Bigl [ - \ln \prod_t \pi (a_t|s_t) \Bigr ]

Kitani先生が関わっている論文で使われている。

Uchibe版

Uchibe, E., and Doya, K. [2014] Inverse Reinforcement Learning Using Dynamic Policy Programming.

真の報酬$R$のもとでの最適方策からサンプリングした状態行動対$(s,a)$のデータセットを$\mathcal{D}^{*}$とするとき、推定した報酬$\tilde{R}$のもとで学習した方策$\pi$のNLL。

\operatorname{NLL}(\pi) = - \frac{1}{\mathcal{D}^{*}} \sum_{(s,a) \in \mathcal{D}^{*}} \ln \pi(a|s)

Wasserstein距離

Dadashi, R., Hussenot, L., Geist, M., and Pietquin, O. [2020]. Primal Wasserstein Imitation Learning.
OpenReview版
参考: Imitation Learning in the Low-Data Regime

詳細は目下確認中．真の報酬にアクセスできない場合の，逆強化学習にも使えそうな尺度だと思います．

累積報酬の期待値

推定した報酬$\tilde{R}$のもとで学習した方策$\pi$ が1エピソードで獲得する真の報酬$R$の合計の平均．

R_{\pi} = \mathbb{E}_{\pi} \Bigl [\sum_{t=0}^{\infty} R(s_{t}) \Bigr ]

MujocoタスクなどでEVDを計算するのは難しいので，最近はこれが多い．

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up