#強化学習とは
よく「試行錯誤しながらシステムが自ら学習を行う枠組み」と説明されます.
実際その通りで,環境におけるエージェントの状態(state),行動(action),それにより得られる報酬(reward)を定義してやり取りを行っていき,最終的に報酬を多くもらうためには,どの状態でどんな行動をすればいいか,を学習していきます.
これが人間とか生き物の学習のしかたに似ているということですね.餌を与えて動物に芸を覚えさせるのと同様というわけです.
#強化学習を日本語で勉強するには
強化学習をしっかり勉強しようとすると,強化学習の生みの親と言われている,Richard S. SuttonのReinforcement Learningをインターネット上で無料で読めます.
Sutton & Barto Book:Reinforcement Learning
ちょうど2017年版が更新され,機械学習界隈では話題になりました.
ただ,もちろん英語です.
新しい分野の勉強を英語で行おうとすると,その分野のことを分かっていないのか,英語が分かっていないのか,とりあえず分からないという状態になることも多い人が多いかと思います.(私も同じです…)
上記の第一版である1998年版は「強化学習」として和訳書籍化されていますが,約20年前,もちろん基礎は変わらないものの,この流速の早い時代に20年という月日は長すぎます.
そんなこんなで,なかなか強化学習でいい和文の入門書がないと言われている中出版された入門書「これからの強化学習」です.
これからの強化学習(Amazon)
#「これからの強化学習」について
第1章で初心者でも強化学習とは何かを分かるようにし,第2章では逆強化学習など一歩踏み込んだ内容を,第3では実際のアプロケーション,研究への応用例の紹介を行い,第4章ではヒトとの関係を記述しています.
初心者でも読める入門書としましたが,やはり第2章以降はかなりしっかり取り組まないと厳しいのではないか,と感じます.
ということで,今回は第1章を読んでの感想をまとめておきます.
#「これからの強化学習」第1章を読んで気になったこと
まず第1章に入る前に「はじめに」に記されている"「十分なデータをもっておらず,データの収集にコストがかかる世界において,データをどのように収集するか」が強化学習である"はおそらく誤解を招く表現だと感じました.
以前この部分だけを取り上げているスライド?を見た覚えがありますが,強化学習で重要なのは,"探索(explore)と利用(exploit)のトレードオフ"であって,いかにうまく探索を行うかだけではないことには注意が必要だと思います.
1.1節,1.2節の導入の流れはとてもわかり易いと思いました.たしかにこれなら初学者でも着いていけるだろう,強化学習の理解を楽しめるだろうという感覚です.ただ,細かなミスが多いのは気になりました.森北出版が出している公式の「これからの強化学習」の正誤表はこちら
ここに載っているもの以外にいくつか間違い探しは見つかりますが,本筋とは関係なさそうなので,気にせず読みました.
1.3節での価値反復法と方策反復法の導入が結局何なのか分かりづらい.ここまではとても分かりやすかったので,すこし残念な気持ちになりました.この点は1.4節で再び記述されている部分の方が私には分かりやすかったですね.ただ,それでも方策反復法の話になったかと思うと価値反復法の話に戻ったりして,振り回される印象を受けました.一本道で理解できるようにしたいものです.
また,内容が高度になっていくことも関係はしているが,1.4は初学者に対する思いやりを1.3までより感じられないです.おそらくは著者が変わったことが一番の理由だと思いますが,数式の書き方などに初学者に対する思いやりの不足が見られました.論文でも多いような略記でアカデミックの悪いところだと思います.
#まとめ
「これからの強化学習」はとりあえず強化学習とは何なのかを簡単に知りたいというのにはうってつけの書籍だと思います.これを読んだあとじっくり学習するのであればSuttonの英文を読みたいですね.和訳する運動起きてないのかな.あるのだったら参加するのですが.
第2章以降も気分が向いたら感想を書こうと思います.