はじめに
Stochastic MuZeroは、非決定的環境で有効な、確率的なMuZeroです。
モデルベース強化学習(世界系)で代表されるモデルとして、MuZeroが挙げられます。囲碁やチェス、atariなどでは、大きな成果を出しています。しかし、大規模で複雑な環境では、MuZeroの性能には限界があります。
そこで、Stochastic MuZeroが提案されました。
以下、論文のリンクです。
Afterstates
Afterstatesは、アクションが適用された後、環境が真の状態に移行する前の環境の仮説状態です。
Afterstatesを使用することで、環境にアクションを適用する効果と、アクションに与えられた確率的転移の効果を分離できます。
モデル
muzeroで用いられたモデルに対して、新たにAfterstates DynamicsとAfterstates Predictionが追加されました。asはAfterstatesです。cは将来予想される可能な確率的な結果です。
確率的な結果(Chance outcomes)
今回は、確率的な結果も分離を行い、モデル化を行なっています。
学習
損失関数は、muzeroと確率的な結果の損失関数を足し合わせたものになります。
lはカテゴリカルクロスエントロピーです。
MuZeroとStochastic MuZeroの比較
Stochastic MuZeroでは、状態(ゲームから得られた生データを観測、ネットワークから得られた表現空間上のものを状態としています)から次の状態に転移する際、Afterstatesが入っていることがわかります。muzeroでは、単純なカテゴリカル分布で表していました。今回は、その複雑性をニューラルネットワークを用いて、学習させます。