多腕バンディット問題は、強化学習の中でも特に重要な問題の1つである。多腕バンディットとは、スロットマシンのような複数のアームがある機械を想定し、どのアームを引けばよいかという選択問題を指す。この問題を解決することで、より効率的な意思決定が可能となる。
多腕バンディット問題についての参考書は数多くあり、本稿ではその中でも代表的な書籍である「バンディット問題の理論とアルゴリズム」に基づいて、1章ごとに記事を書いていく。本シリーズを通して、多腕バンディット問題についての基礎的な知識から応用的な解法までを解説し、読者の方々が強化学習における意思決定問題を解決する上での知識を深めていただければ幸いである。
各章
第1章
多腕バンディット問題の紹介、腕を選択したときの評価方法(リグレットなど)
書籍