はじめに
経路積分を使った経路積分制御が面白かったので紹介する。経路積分は、確率解析や量子力学などで登場する。それに対応するように、産業向けに最適化問題を設計したのが、経路積分制御である。
経路積分
経路積分をしらなかったが、緒方秀教先生と前野昌弘先生がわかりやすくまとめてくださっていた。
経路積分制御
経路積分制御は、経路積分におけるポテンシャルを工学の用途に適した関数に変更することで、産業応用を可能にした。
次の確率微分方程式を考える。
dx_t = (f(x_t)+G(x_t)u_t)+B(x_t)dw
コスト関数を考える。
\mathcal{L}(x_t,u_t) = c(x_t)+\dfrac{1}{2}u^T_t R(x_t)u_t
価値関数$V(x)$を考える。
V(x)=\min_u\mathbb{E}\left[\phi(x_T)+\int_{0}^{T}\mathcal{L}(x_s,u_s)ds\right]
\tag{1}
ここで、
BB^T = \lambda GR^{-1}G^T
\tag{2}
とおくと、最適制御入力は、
u^\ast_t (x_t)= -R(x_t)^{-1}G(x_t)V_x
ステージコスト$S(\tau)$を下のように考える。
S(\tau)=\phi(x_T)+\int_{\tau}^{t_f} c(x_t)dt
Feynman-Kac Lemmaを使えるようにするために、わざわざ$\Psi(\tau,x)$を下のようにおく。
V(\tau,x)= -\lambda\log(\Psi(\tau,x))
\tag{3}
すると、式(1)の確率的HJB方程式と式(2)から、$\Psi(\tau,x)$の線形偏微分方程式が得られる。これにより、Feynman-Kac Lemmaが使えるようになり、Green関数$\Psi(\tau,x)$をえる。
\Psi(\tau,x)=\mathbb{E}_{\mathcal{P}}
\left[\exp\left(-\dfrac{1}{\lambda}S(\tau)\right)
\Psi(T,x_T)
\right]
式(3)を$x$について偏微分すると、最適入力を得る。
u^\ast(\tau) dt= R^{-1}G^T(GR^{-1}G^T)^{-1}
\dfrac{\mathbb{E}_{\mathcal{P}}
\left[\exp\left(-\dfrac{1}{\lambda}S(\tau)\right)Bdw
\right]}{\mathbb{E}_{\mathcal{P}}
\left[\exp\left(-\dfrac{1}{\lambda}S(\tau)\right)
\right]}
近似することを考える。
dw \simeq \sqrt{\Delta t}\varepsilon, \ \ \varepsilon\sim \mathcal{N}(0,I)
特に、$B$を下のようにおくと
B=G\sqrt{\Sigma}
最適入力は、下のようになる。
u^\ast(\tau)=
\dfrac{\mathbb{E}_{\mathcal{P}}
\left[\exp\left(-\dfrac{1}{\lambda}S(\tau)\right)\sqrt{\Sigma}\varepsilon
\right]}{\mathbb{E}_{\mathcal{P}}
\left[\exp\left(-\dfrac{1}{\lambda}S(\tau)\right)
\right]}
モンテカルロ法により、経路$x(t=\tau\rightarrow t=t_f)$をサンプリングすることを考え、近似して解く。
u^\ast(\tau)\simeq
\dfrac{\sum_{i}
\left[\exp\left(-\dfrac{1}{\lambda}S(\tau)^i\right)v_i\right]}
{\sum_{i}\left[\exp\left(-\dfrac{1}{\lambda}S(\tau)^i\right)\right]}
v_i\sim\mathcal{N}(0,\Sigma)
また、時刻$\tau$、経路$x(\tau\rightarrow t_f)$に存在する状態の共存程度は、下のようになる。
\hat{\Psi}(\tau,x(\tau\rightarrow t_f)) \simeq \dfrac{1}{N}\sum_{i}^{N}\left[\exp\left(-\dfrac{1}{\lambda}S(\tau)^i\right)\right]
モデル予測経路積分制御:MPPI
経路積分制御は、経路がStart地点とGoal地点が確定していることを想定しており、現実的ではない。そこで、経路積分制御をモデル予測制御の枠組みに落とし込んだのが、モデル予測経路積分制御(MPPI)である。下の記事がわかりやすい。