強化学習の「人間の学習」を行う上で、colaboratoryは便利であり、その上で動くことを基本とするならば、chainerRL+OpenAIgymは多分、最も簡単な方法と思われます。
ただし、もともと気になっていたのですが、tensorflowとpytorchの存在。tensorflowは製品開発向けで、pytorchは研究向けなどという意見もあります。
そんな中、
https://preferred.jp/ja/news/pr20191205/
chainerの開発は終了する予定みたいです。
もともと、オープンソースでしたが、pytorchとtensorflowが伸びる中で、独自性を維持する理由がないとの判断のようです。
pytorchとchainerはかなり似ているとの評価もありますので、移行がスムーズになるならば、いいのかなあと思います。
chainerRLの学習部分はchainerを利用しており、Pytorchのoptimizerは、もともとはchainerのもの?らしいので、変化は比較的小さいのかなあと思っています。
chainerRLのラッパーとして、初学者がやりやすいように、chokozainerRLをゆっくり開発していこうと思うので、当面は、このまま進めてみようと考えています。
それくらい、他の方法(KerasRLなど)を調べてみると、chainerRLは使いやすいんですよね。パラメータ設定するだけで、DQNが動くって、すごいじゃないですか。