1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

[論文解説] Stochastic MuZero: PLANNING IN STOCHASTIC ENVIRONMENTS WITH A LEARNED MODEL

Last updated at Posted at 2022-04-11

はじめに

Stochastic MuZeroは、非決定的環境で有効な、確率的なMuZeroです。

モデルベース強化学習(世界系)で代表されるモデルとして、MuZeroが挙げられます。囲碁やチェス、atariなどでは、大きな成果を出しています。しかし、大規模で複雑な環境では、MuZeroの性能には限界があります。
そこで、Stochastic MuZeroが提案されました。

以下、論文のリンクです。

Afterstates

Afterstatesは、アクションが適用された後、環境が真の状態に移行する前の環境の仮説状態です。
Afterstatesを使用することで、環境にアクションを適用する効果と、アクションに与えられた確率的転移の効果を分離できます。

Screen Shot 2022-04-11 at 13.32.29.png

モデル

muzeroで用いられたモデルに対して、新たにAfterstates DynamicsとAfterstates Predictionが追加されました。asはAfterstatesです。cは将来予想される可能な確率的な結果です。

Screen Shot 2022-04-11 at 13.43.30.png

確率的な結果(Chance outcomes)

今回は、確率的な結果も分離を行い、モデル化を行なっています。

学習

損失関数は、muzeroと確率的な結果の損失関数を足し合わせたものになります。

Screen Shot 2022-04-11 at 13.59.33.png

Screen Shot 2022-04-11 at 13.59.00.png

lはカテゴリカルクロスエントロピーです。

Screen Shot 2022-04-11 at 13.57.07.png

MuZeroとStochastic MuZeroの比較

Stochastic MuZeroでは、状態(ゲームから得られた生データを観測、ネットワークから得られた表現空間上のものを状態としています)から次の状態に転移する際、Afterstatesが入っていることがわかります。muzeroでは、単純なカテゴリカル分布で表していました。今回は、その複雑性をニューラルネットワークを用いて、学習させます。

MuZero

Screen Shot 2022-04-11 at 14.08.46.png

Stochastic MuZero

Screen Shot 2022-04-11 at 13.57.38.png

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?