LoginSignup
0
0

LinTS方策における事後分布(ガウス分布)の導出

Last updated at Posted at 2024-02-25

この記事でやること

LinTS方策におけるパラメータのサンプリングに必要である事後分布(ガウス分布)の期待値ベクトルと共分散行列を導出する.

Notation

記号 説明
$t \in {1,..,T}$ 時刻$t$
$i \in \mathcal{I}$ アクション集合
$X_i(t)$ 時刻$t$に観測されたアクション$i$からの報酬
$a_{i,t} \in \mathbb{R}^d$ アクション$i$と時刻$t$に依存した$d$次元の文脈ベクトル
$\theta_i \in \mathbb{R}^d$ $d$次元のアクション$i$の真のパラメータベクトル
$\epsilon(t)$ 時刻$t$時点の線形モデルの誤差項
$a_{i(s),s} \in \mathbb{R}^d$ 時刻$s$時点で選ばれたアクション$i$と時刻$s$に依存した$d$次元の文脈ベクトル
$I_d$ $d$次元の単位行列

文脈付きバンディットにおける報酬モデル

\begin{align}
\epsilon(t) &\overset{\mathrm{i.i.d}}{\sim} \mathcal{N}(0, \sigma^2)\\
X_i(t) &= \theta_{i}^{\top}a_{i,t} + \epsilon(t) \qquad \text{-  (1)} \\
\end{align}

以上のように, アクション特有のパラメータ$\theta_i$と時刻$t$で観測された文脈(特徴量)の内積と, ガウス分布に従う確率変数であるノイズの和で表される.

\begin{align}
\mathbb{E}_{\epsilon} \left[ X_i(t) \right] &= \mathbb{E}_{\epsilon} \left[ \theta_{i}^{\top}a_{i,t} + \epsilon(t) \right] \\
&= \theta_{i}^{\top}a_{i,t} + \mathbb{E}_{\epsilon}[\epsilon(t)] \\
&= \theta_{i}^{\top}a_{i,t} 
\end{align}
\begin{align}
\mathbb{V}_{\epsilon} \left[ X_i(t) \right] &= \mathbb{V}_{\epsilon} \left[ \theta_{i}^{\top}a_{i,t} + \epsilon(t) \right] \\
&= \mathbb{V}_{\epsilon}[\epsilon(t)] \\
&= \sigma^2
\end{align}
X_i(t) \sim \mathcal{N}(\theta_{i}^{\top}a_{i,s}, \sigma^2)

ということで,期待値$\theta_{i}^{\top}a_{i,s}$,分散$\sigma^2$のガウス分布に従う確率変数の報酬$X_{i}(t)$が観測されるとする.

LinTS方策とは

文脈付きバンディット版のTS方策. 以下のように, パラメータ$\theta_i$に事前分布を導入することで, 時刻$t$までに収集された報酬のもとでのパラメータ$\theta_i$の事後分布をもとにサンプリングを行い, 線形モデルの内積値最大のアクションを選択する方策である.

\begin{align}
p(\theta_i) &= \mathcal{N}(\theta_i | \mathbf{0},\sigma_{0}^2I_d) \\
&= \frac{1}{(2\pi)^{\frac{d}{2}} |\sigma_{0}^2I_d|^{\frac{1}{2}}} \exp \left(- \frac{\theta_{i}^{\top} \theta_i}{2\sigma_{0}^2} \right)
\end{align}

報酬モデル$X_i(t)$も同様にガウス分布に従うので, 以下のように事後確率も同様にガウス分布に従う.

p(\theta_i | \{ X_i(s) \}_{s=1}^t) = \mathcal{N}(\theta_i | \mu_t,\Sigma_{t})

ということで, 時刻$t$時点においてパラメータのサンプリングに必要な多変量ガウス分布の期待値ベクトル$\mu_t$と共分散行列$\Sigma_{t}$を導出することが今回のテーマである.

事後分布の導出

事後分布もガウス分布に従うので, 指数関数内で二次形式を作ることが一つの着地点である.

\begin{align}
p(\theta_i | \{ X_i(s) \}_{s=1}^t) &\propto p(\theta_i)P(\{ X_i(s) \}_{s=1}^t | \theta_i) \\
&= p(\theta_i) \prod_{s=1}^t p(X_i(t)|\theta_i) \\
&= \frac{1}{(2\pi)^{\frac{d}{2}} |\sigma_{0}^2I_d|^{\frac{1}{2}}} \exp \left(- \frac{\theta_{i}^{\top} \theta_i}{2\sigma_{0}^2} \right) \prod_{s=1}^t \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left(- \frac{1}{2\sigma^2}(X_i(s) - \theta_{i}^{\top}a_{i(s),s})^2 \right) \\
&=  \frac{1}{(2\pi)^{\frac{d+t}{2}} (\sigma^2)^{\frac{t}{2}}|\sigma_{0}^2I_d|^{\frac{1}{2}}} \exp \left(- \left( \frac{\theta_{i}^{\top} \theta_i}{2\sigma_{0}^2} + \frac{1}{2\sigma^2} \sum_{s=1}^t \left( X_i(s) - \theta_{i}^{\top}a_{i(s),s} \right)^2 \right) \right) \\
&\propto \exp \left(- \left( \lambda_2\theta_{i}^{\top} \theta_i+ \lambda_1 \sum_{s=1}^t \left( X_i(s) - \theta_{i}^{\top}a_{i(s),s} \right)^2 \right) \right)
\end{align}

ここで, $\lambda_1 = \frac{1}{2\sigma^2}, \lambda_2 = \frac{1}{2\sigma_{0}^2}$と置き換えた.

\begin{align}
p(\theta_i | \{ X_i(s) \}_{s=1}^t) &\propto \exp \left(- \left( \lambda_2\theta_{i}^{\top} \theta_i+ \lambda_1 \sum_{s=1}^t X_i(s)^2 - 2 a_{i(s),s}^{\top} \theta_i + \theta_{i}^{\top}a_{i(s),s}a_{i(s),s}^{\top} \theta_i  \right) \right) \\
&= \exp \left( - \left( \lambda_2\theta_{i}^{\top} \theta_i + \lambda_1 \left( \sum_{s=1}^t X_i(s)^2 \right) - 2\lambda_1 \left( \sum_{s=1}^t X_i(s)a_{i(s),s}^{\top} \right)\theta_i + \lambda_1\theta_{i}^{\top} \left( \sum_{s=1}^t a_{i(s),s}a_{i(s),s}^{\top}  \right) \theta_i\right) \right) \\
&\propto \exp \left( - \left( \lambda_2\theta_{i}^{\top} \theta_i - 2\lambda_1 \left( \sum_{s=1}^t X_i(s)a_{i(s),s}^{\top} \right)\theta_i + \lambda_1\theta_{i}^{\top} \left( \sum_{s=1}^t a_{i(s),s}a_{i(s),s}^{\top}  \right) \theta_i\right) \right) \\
&= \exp \left( - \left( \lambda_2\theta_{i}^{\top} \theta_i - 2\lambda_1 b_{t}^{\top}\theta_i + \lambda_1\theta_{i}^{\top} \widetilde{A}_{t} \theta_i\right) \right) \\

\end{align}

ここで,

b_t = \sum_{s=1}^t X_i(s)a_{i(s),s}, \quad \widetilde{A}_{t} = \sum_{s=1}^t a_{i(s),s}a_{i(s),s}^{\top}

と置き換えた.

\begin{align}
p(\theta_i | \{ X_i(s) \}_{s=1}^t) &\propto \exp \left( - \lambda_1 \left( \theta_{i}^{\top} \left( \widetilde{A}_{t} + \frac{\lambda_2}{\lambda_1}I_d \right)\theta_i - 2b_{t}^{\top}\theta_i\right) \right)
\end{align}

$\theta_i$について二次形式を作るために,以下の恒等式を考える.

\begin{align}
\theta_{i}^{\top}A_t\theta_i - 2b^{\top}\theta_i &= \left( \theta_i - A_{t}^{-1}b_t \right)^{\top}A_t\left( \theta_i - A_{t}^{-1}b_t \right) - b_{t}^{\top}A_{t}^{-1}b_t \\
&\propto \left( \theta_i - A_{t}^{-1}b_t \right)^{\top}A_t\left( \theta_i - A_{t}^{-1}b_t \right)
\end{align}

$A_t = \left( \widetilde{A}_{t} + \frac{\lambda_2}{\lambda_1}I_d \right)$として,上記の式に当てはめると二次形式ができる.

\begin{align}
p(\theta_i | \{ X_i(s) \}_{s=1}^t) &\propto \exp \left( - \lambda_1 \left( \left( \theta_i - A_{t}^{-1}b_t \right)^{\top}A_t\left( \theta_i - A_{t}^{-1}b_t \right) \right) \right)
\end{align}

$\lambda_1, \lambda_2$を戻して,

A_t = \left( \widetilde{A}_{t} + \frac{\sigma^2}{\sigma_{0}^2}I_d \right) 
p(\theta_i | \{ X_i(s) \}_{s=1}^t) \propto \exp \left( - \frac{1}{2\sigma^2} \left( \left( \theta_i - A_{t}^{-1}b_t \right)^{\top}A_t\left( \theta_i - A_{t}^{-1}b_t \right) \right) \right)

ということで,見慣れた多変量ガウス分布の指数部分がうまくまとまった.
この式から事後分布の期待値ベクトルと共分散行列は以下の通り.

\begin{align}
\mu_t &= A_{t}^{-1}b_t \\
\Sigma_{t} &= \sigma^2 A_{t}^{-1} \\
\end{align}

事後分布の再掲

\begin{align}
p(\theta_i | \{ X_i(s) \}_{s=1}^t) &= \mathcal{N}(\theta_i | \mu_t,\Sigma_{t}) \\
&= \mathcal{N}(\theta_i | A_{t}^{-1}b_t, \sigma^2 A_{t}^{-1})
\end{align}

参考文献

・本多淳也,中村篤祥:バンディット問題の理論とアルゴリズム,講談社(2016)
・元田浩ほか訳:パターン認識と機械学習上,ベイズ理論による統計的予測,シュプリンガー・ジャパン (2007)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0