LoginSignup
4
7

More than 3 years have passed since last update.

逆強化学習の評価指標

Last updated at Posted at 2019-09-13

逆強化学習(IRL)の評価指標に何があるか調べた(雑な)メモ。問題特化型の指標は扱わない。随時追加。

Reward Loss

真の報酬$R$と推定した報酬$\tilde{R}$の差のノルム。

L(\pi) = \|R - \tilde{R} \|_{n}

IRLは不良設定(ill-posed)問題なので、このような指標は(多くの場合)意味がない。報酬を正確に推定したいときに。
時折出てくる「重み$w$の差」とか「特徴量の差」とかも同類の気がする。

エキスパートと学習者の距離

エキスパート軌跡と学習者の方策の距離,となりそうなもの.

Expected Value Difference (EVD)

「期待価値差」。Value(価値)とは状態価値のことか。

後者ではEVDとは呼ばれていないが、同じ定式化が見られる。論文式(6)-式(9)を参照。

IRLではよく出てくる指標。非負(0でエキスパートと一致)であり,小さいほどエキスパートに近い。

\operatorname{EVD}(\pi) = {V^{*}}_{R} - {V^{\pi}}_{R} \\
= \mathbb{E} \Bigl [ \sum_{t=0}^{\infty} \gamma^{t} R(s_t) | {\pi^{*}} \Bigr ] - \mathbb{E} \Bigl [ \sum_{t=0}^{\infty} \gamma^{t} R(s_t) | \pi \Bigr ]

ここで,
- $R$ : 真の報酬
- $\pi^{*}$ : 真の報酬$R$に従って学習した最適方策
- $\pi$ : 推定報酬$\tilde{R}$に従って学習した最適方策

注意されたいのは、「真の報酬$R$のもとで,最適方策$\pi^{*}$と調べたい方策$π$との状態価値(=割引累積報酬の期待値)の差」である。真の報酬が未知の場合は使えない。正確に計算する場合は、方策反復(Policy Iteration)の方策評価(Policy Evaluation)を使って求める方法がある。

Policy Loss

EVDよりもうちょい一般的な形。

L(\pi) = \|{V^{*}}_{R} - {V^{\pi}}_{R}\|_{p}

Negative Log Likelihood (NLL)

「負の対数尤度」。「交差エントロピー」(cross entropy)とも言う。

Kitani版

推定した報酬に従って学習した方策$\pi$のもとでの軌跡の(?)NLL。

\operatorname{NLL}(\pi) = \mathbb{E}_{\pi} \Bigl [ - \ln \prod_t \pi (a_t|s_t) \Bigr ]

Kitani先生が関わっている論文で使われている。

Uchibe版

真の報酬$R$のもとでの最適方策からサンプリングした状態行動対$(s,a)$のデータセットを$\mathcal{D}^{*}$とするとき、推定した報酬$\tilde{R}$のもとで学習した方策$\pi$のNLL。

\operatorname{NLL}(\pi) = - \frac{1}{\mathcal{D}^{*}} \sum_{(s,a) \in \mathcal{D}^{*}} \ln \pi(a|s) 

Wasserstein距離

詳細は目下確認中.真の報酬にアクセスできない場合の,逆強化学習にも使えそうな尺度だと思います.

累積報酬の期待値

推定した報酬$\tilde{R}$のもとで学習した方策$\pi$ が1エピソードで獲得する真の報酬$R$の合計の平均.

R_{\pi} = \mathbb{E}_{\pi} \Bigl [\sum_{t=0}^{\infty} R(s_{t}) \Bigr ]

MujocoタスクなどでEVDを計算するのは難しいので,最近はこれが多い.

4
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
7