3年前に書いた記事の大部分は動かず、新たに書いた方がいいので、全面的に書き直します。
これは、強化学習初心者で、ある程度のプログラミングの知識とPythonに習熟している人向けです。
2019年以降に起きた変化
一番大きな変化は、Preferred Networksがchainerの開発を止めたことです。これに伴い、chainerRLも更新されなくなりました。
chainerRLはPFRLとして復活しました。こちらを使います。
https://github.com/pfnet/pfrl
releaseを見ると、2020年7月にv0.1.0を公開しています。
中身は、、、chainerがpytorchになったくらいで、ほぼ同じ形式のようです。今後、詳しくチェックします。
次の大きな変化は、Colaborateryの有償化と利便性向上です。
月額1072円で、最長24時間の連続使用も可能になり、メモリーも大幅にアップ。GPUもかなりレベルアップしました。へなちょこ機械学習ならば、自分でGPU組むのがあほらしくなります。
最後に機械学習の大きなトレンドは、自然言語処理のtransformerに移っています。BERTの登場は、飛躍的に言語処理の精度を向上させました。強化学習のトレンドは弱いです。
reでやること
colaboratery+OpenAI+PFRLで、もう一度やり直そうと思います。chokozainerRLでやったようなことはしないかもしれません。
colaboratery proの現況チェック
無償版の方は、同じようにチェックしてください。(2022年5月26日)
import sys
print(sys.version)
3.7.13 (default, Apr 24 2022, 01:04:09)
import gym
gymはインポートできます。
pfrlはimportできるでしょうか?
import pfrl
できないので、pip installします。
!pip install pfrl
import pfrl
これで、とりあえずの準備はできました。