More than 1 year has passed since last update.

「第1章　バンディット問題とは」を読み解く

多腕バンディット問題

Last updated at 2023-03-11Posted at 2023-03-11

本項は、「本多淳也・中村篤祥著　バンディット問題の理論とアルゴリズム」の第1章を開設した分である。第1章は、あまり数式がなかったために、言い換えとなっている部分もある。

多腕バンディット問題とは

とある選択肢を選択すると、報酬が得られるとする。複数の選択肢（腕）を有限回の回数選び、得られる報酬を最大化しようとする時、どのように選択肢を選べばよいだろうか？

ここで問題なのは、選択者は各腕の報酬がどのように決まるかがわからない、という問題である。たとえば、いかなる状況設定にも関わらず一定値の報酬が得られるならば、各腕を1回ずつ選択し、報酬を確認してから報酬を最大化する腕を選べばよい。しかし、各腕が確率的に（平均10、分散2.5の正規分布に従う、など）ふるまうときは、問題がややこしくなる。どれが報酬が最大の腕なのかがわからなくなるのである。

選択者の方策の評価方法

今、多腕バンディット問題において、腕が$n$本あるとし、全部で$T$回選択できるとする。時刻$t(=1,\cdots,T)$において、$i(=1,\cdots,n)$番目の腕の報酬を$X_i(t)$と表す。

すると全部で$T$回行ったときの報酬の総和、つまり累積報酬は

    X_{i(1)}(1) + \cdots+ X_{i(T)}(T)
    =
    \sum_{t=1}^T X_{i(t)}(t)

となる。ただし$i(t)$は、$t$回目に選ばれる腕である。

ここで選択者の方策を評価したいとしよう。普通に考えれば各回における報酬の最大値

    \max_i {X_{i}(1)} + \cdots+ \max_i {X_{i}(T)}
    =
    \sum_{t=1}^T \max_i {X_{i}}(t)

を考えれば、全試行における報酬を最大化できそうだが、これでは目標として高すぎる。そのため各回ではなく、報酬を最大化する腕を事前に1つだけ選ぶことで代替する。

    \max_i \{X_{i}(1)+ \cdots+ {X_{i}(T)}\} 
    =
     \max_i \sum_{t=1}^T{X_{i}}(t)

上記と累積報酬の差は、リグレット

    \mathrm{Regret}(T)
    =
    \max_i \sum_{t=1}^T{X_{i}}(t) - \sum_{t=1}^T X_{i(t)}(t)

と呼ばれ、バンディット問題においてはこれを最小化することを考える。

期待リグレットと

    E[\mathrm{Regret}(T)]
    =
    E\left[ \max_i \sum_{t=1}^T{X_{i}}(t) - \sum_{t=1}^T X_{i(t)}(t) \right]

擬リグレットと

    \overline{ \mathrm{Regret} } (T)
    =
   \max_i  E\left[  \sum_{t=1}^T{X_{i}}(t) - \sum_{t=1}^T X_{i(t)}(t) \right]

との間には、不等式

    \overline{ \mathrm{Regret} } (T)
    \leq
    E[\mathrm{Regret}(T)]

が成り立つ。

忘備：この不等式は未証明。

用語

腕：選択肢、アーム(arm)とも。選択者が特定の腕を選ぶと、報酬がもらえる。私はできるだけ外国語を音のまま訳すのを良しとせず、語義をきちんと日本語に訳すのが良いと思っているので、これからは「腕」と表記する。
選択者：プレイヤーとも。腕を選び、報酬を受け取る主体。
探索：どの腕が報酬を多く出しやすいか、探ること。
知識活用：最も報酬を出しやすい腕を選択し、合計の報酬を増やそうとすること。
方策：ポリシーとも。選択者がどのように腕を選ぶかという戦略のこと。
確率的バンディット：各腕の報酬が何らかの確率分布に従って生成されること。
敵対的バンディット：選択者の方策を知っている敵対者が報酬を決めること。

書籍の紹介

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

「第1章 バンディット問題とは」を読み解く

多腕バンディット問題とは

選択者の方策の評価方法

用語

「第1章　バンディット問題とは」を読み解く