師匠の受け売り(の劣化)だが、まとまっている記事もないので。
射影の定義
$X$を集合とする。 $f: X\times X \to \mathbb{R}$が
- $\forall x \in X, f(x, x) = 0$
- $\forall x, y \in X, f(x, y) \geq 0$
を満たすように与えられているとする。これを前距離(premetric)と言う。
$a \in X$の$f(a, \cdot)$による$S \subset X$への射影(projection)$\Pi_{f(a, \cdot)}(a) \in S$(あるいは$\Pi_{f(a, \cdot)}(a) \subset S$)は
\Pi_{f(a, \cdot)}(a) = \arg \min_{s\in S}f(a, s)
で、$a \in X$の$f(\cdot, a)$による$S \subset X$への射影$\Pi_{f(\cdot, a)}(a) \in S$(あるいは$\Pi_{f(\cdot, a)}(a) \subset S$)は
\Pi_{f(\cdot, a)}(a) = \arg \min_{s\in S}f(s, a)
で定義される。
Note 1
一般的に射影は$S$上の部分集合である。これが一点集合の時、その元と集合を同一視することとする。
Note 2
$f$が擬半距離(pseudo-semimetric)である時つまり、
- $\forall x \in X, f(x, x) = 0$
- $\forall x, y \in X, f(x, y) \geq 0$
- $\forall x, y \in X, f(x, y) = f(y, x)$
を満たす時、$\Pi_{f(a, \cdot)}(a)=\Pi_{f(\cdot, a)}(a)$である。この時これを$\Pi_f(a)$と表すこととする。
Note 3
$a \in X$が$a \in S$でもある時、$a \in \Pi_{f(a, \cdot)}(a)$かつ$a \in \Pi_{f(\cdot, a)}(a)$である。特に$f$が準半距離(quasi-semimetric)である時つまり
- $\forall x, y \in X, f(x, y) = 0 \iff x = y$
- $\forall x, y \in X, f(x, y) \geq 0$
を満たす時、$\Pi_{f(a, \cdot)}(a)$や$\Pi_{f(\cdot, a)}(a)$は一点集合となり、$a = \Pi_{f(a, \cdot)}(a) = \Pi_{f(\cdot, a)}(a)$である。
また、$b \in X$の射影$\Pi_{f(b, \cdot)}(b)$が1点集合である時、つまり $\Pi_{f(b, \cdot)}:\{b\} \to S$を写像として見れる時、
\Pi_{f(b, \cdot)}(b) = \Pi_{f(b, \cdot)} \circ \Pi_{f(b, \cdot)}(b)
を満たす。この性質を冪等性と呼ぶ。
射影の例
集合論の標準射影
$X$を直積集合$\coprod X_i$とする。$X_i$上の適当な距離を$d_i$とし、$X$上の距離を$\forall a, b \in X, d(a, b) = \sum d_i(a_i, b_i)$で定義する。ここで$a_i$は$a$の第$i$成分である。
$X$上の元$c$を固定し、$X$の部分集合$\{x \in X|\forall j \neq i, x_j = c_j\}$を$X_i$と同一視すると、$X$から$d$による$X_i$への射影$\Pi_{i, d}$が、
\forall a \in X, \Pi_{i, d}(a) = a_i
を満たす。これは集合論における標準射影である。
線形代数の射影
$X$を線形空間とし、$d$を$X$上の適当な距離とする。$X$の部分集合$S$を$X$から$S$への$d$による射影$P_d$が写像となるように選択する。一点集合$\{a\}\subset X$がこれを満たすことから$S$は存在する。
距離は準半距離でもあるからNote 3より
\forall x \in X, \Pi_d(x) = \Pi_d \circ \Pi_d(x)
と冪等性を満たす。また、距離$d$がユークリッド距離である時、$S$として部分空間を選べる。この時、射影$\Pi_d$は線形性を満たし、射影作用素の条件を満たす。
情報幾何の射影
$X$を離散集合$Y$上の分布全体の集合とする。$S\subset X$とする。また、この$S$がパラメータ集合$\Theta$からの単射が存在する時、$S$は統計モデル(statistical model)と呼ばれる。
$D(p||q)$をKL情報量とし、
D(p||q) = \sum_{y \in Y} p(y) \log \frac{p(y)}{q(y)}
と定義される。KL情報量は準半距離を満たす。
ここで、$p \in X$の$S$への$D(p||\cdot)$による射影$\Pi_{D(p||\cdot)}$をm 射影(m projection)と呼び、$\Pi_m$で表す。また、$p \in X$の$S$への$D(\cdot || p)$による射影$\Pi_{D(\cdot||p)}$をe 射影(e projection)と呼び、$\Pi_e$で表す。
$p$を経験分布とした時、統計モデル$S$上の最尤推定量はm射影$\Pi_m(p)$である。