3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Computational Optimal Transport 精読会 記録 (#17: 4.5)

Posted at

背景

前回の振り返りと今回の内容

  • エントロピー正則化付き最適化問題
    • Primal (4.2) $L^\varepsilon_C({\bf a}, {\bf b}) = \min_{{\bf P}\in U({\bf a},{\bf b})} \langle {\bf P}, C\rangle - \varepsilon H({\bf P})$
    • Dual (4.30) $L_C^\varepsilon(a,b) = \max_{f, g} \langle f, a\rangle + \langle g, b\rangle - \varepsilon \langle \exp(f/\varepsilon), K\exp(g/\varepsilon)\rangle$
  • Sinkhornアルゴリズム最高 → ちゃんと収束するし,高速化できるよ.安定化するためにはLogドメインが必須だよ.
    • $\mathbf{u}^{(l+1)} = \frac{\mathbf{a}}{\mathbf{Kv}^{(l)}}$, $\mathbf{v}^{(l+1)} = \frac{\mathbf{b}}{\mathbf{K}^T\mathbf{u}^{(l + 1)}}$
  • 今回: 近似性能とかについて知りたい

  • この章ではずっとエントロピー正則化について話をしているが,ところで元の最適化問題との関係性はどうなっているのか,について確認していく

Prop 4.5 エントロピー正則化付きdual問題の解は,正則化なし問題の解の下界になる

  • (4.30)の最適解$f^\star, g^\star$は,元の問題のfeasibleなdual$(f^\star, g^\star)\in R(C)$になっている
  • 結果として下界になる
    • $\langle f^\star, a\rangle + \langle g^\star, b\rangle \leq L_C(a, b)$

Prop 4.5の証明

  • $\exp(-(f^\star_i + g^\star_j - C_{ij}) / \varepsilon) \leq 1$ より成り立つ

Prop 4.5の嬉しいところ

  • (4.2)がsmooth & convexであり,最適解が求まる
  • (4.2)Primalの最適解から,(4.30)Dualの最適解を復元でき,これが元の$L_C(a,b)$の下界になる

Prop 4.6

  • $L_C^\varepsilon(a,b)$が$a, b$のjointly convex functionであり,勾配方向を作れる
    • この$f^\star, g^\star$を使っている(理由はよくわからない)

$$\nabla L_C^\varepsilon (a, b) = \begin{pmatrix} f^\star \\ g^\star \end{pmatrix}$$

Def 4.1 Sinkhorn divergences

  • (4.2)と(4.30)の最適解を$P^\star, f^\star, g^\star$とし,以下の値を計算する

    • $\mathfrak{P}^\varepsilon_C(a,b) := \langle C, P^\star\rangle$
    • $\mathfrak{D}^\varepsilon_C(a,b) := \langle f^\star, a\rangle + \langle g^\star, b\rangle$ ← これはProp 4.5の左辺
  • 次のProp 4.7が成り立つ

Prop 4.7

$$\mathfrak{P}^\varepsilon_C(a,b) \leq L_C(a,b) \leq \mathfrak{D}^\varepsilon_C(a, b)$$

Prop 4.7の意味

  • 正則化付きの解によって,元の最適化問題の上界・下界が得られる

Prop 4.7の証明

  • 式変形から成り立つ

Prop 4.7の補足

  • これは収束した後にのみ成り立つので,Sinkhornを途中で止めた場合には必ずしも成り立たない
  • しかしせいぜい$L$回程度計算した場合の解を利用した値であっても利用できる
    • $\mathfrak{D}_C^{(L)}(a,b) := \langle f^{(L)}, a\rangle + \langle g^{(L)}, b\rangle$

Prop 4.8 L回の場合

$$\mathfrak{D}^{(L)}_C(a, b) \leq L_C(a,b)$$

Prop 4.8の証明

  • 上と同じ.ここはPDFだと$\epsilon$がついているけど,たぶん間違いじゃないかなと推測.
  • 以下に残りの主張を書く.

Remark 4.26

  • 以前,Sinkhornの計算を補正するAltschuler et al. 2017の式を書いた
  • ここで言っていることは更新のタイミングによっては$P^{(2L+1)}$のようなPrimal側の値でバウンドを考えてもダメだよ,という話

Remark 4.27

  • 非凸性について
  • 数値的に非凸である例がすぐ出てくるので,証明しなくてよい
  • ただし,行列計算程度のものになっているので,数値微分はできる(autogradとか)(たぶんそういう意味)

Next

  • §4.6を読んで,ついに§4が終わり
3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?