math
ComputerVision

はじめに

数学とコンピュータ Advent Calendar 2017
12月5日の記事として、代数ビジョンについて簡単に紹介します。

代数ビジョン(algebraic vision)とは、コンピュータビジョンのさまざまな問題に代数幾何の道具を応用しちゃおう、という比較的新しい研究分野です。この記事では、代数ビジョンの基本的な研究対象である多視点多様体(multiview variety)を定義したいと思います。

射影空間

$n$ 次元の射影空間 $\mathbb{P}^n= \mathbb{P}\bigl( \mathbb{C}^{n+1} \bigr)$ とは、$n+1$ 個の複素数の比
$$ [x_0: \dots : x_n ] \quad \text{(少なくとも1つの $x_i$ はゼロでない)}$$ が構成する空間です。

0でない複素数の集合を $\mathbb{C}^*$ とかくと、全ての $\lambda \in \mathbb{C}^*$ に対して、
$$[x_0: \dots : x_n ] = [\lambda x_0 : \cdots : \lambda x_n] \in \mathbb{P}^n$$ は同一の点を表します。

線形射影(ピンホールカメラ)

$n>m$ を自然数とし、次のように行列 $P$ で表される全射線形写像 $s: \mathbb{C}^{n+1} \rightarrow \mathbb{C}^{m+1}$ を考えます。
$$
\begin{pmatrix}
y_0 \\
\vdots\\
y_m
\end{pmatrix} =
P
\begin{pmatrix}
x_0 \\
\vdots\\
x_n
\end{pmatrix}.
$$

この写像は定数倍を保つため、 $[x_0 : \cdots : x_n]\in \mathbb{P}^n$ を $[y_0 : \cdots : y_m]\in \mathbb{P}^m$ に移す射影空間の間の写像とも思えそうですが、$$P
\begin{pmatrix}
x_0 \\
\vdots\\
x_n
\end{pmatrix}=\mathbf{0}$$ を満たすような点 $[x_0 : \cdots : x_n] \in \mathbb{P}^n$ は、射影空間 $\mathbb{P}^m$ 上の点に移すことができません。
($\mathbb{P}^m$ の点 $[y_0 : \cdots : y_m]$ では、少なくとも1つの $y_i$ はゼロでない、と定めたのでした。)

このように写像が定義されない点(不確定点という)もあるのですが、不確定点の集合
$$Z:= \mathbb{P} \bigl( \mathrm{ker} (s)\bigr) \subsetneq \mathbb{P}^n$$ を除けば、大部分の点に行き先が定まります。

このとき、$s$ が定める「写像もどき」を、$\varphi: \mathbb{P}^n \dashrightarrow \mathbb{P}^m$ のようにダッシュ矢印で表し、射影空間の線形射影と呼びます1。 線形射影は、一般の次元のピンホールカメラモデルに対応します。

線形射影 ピンホールカメラ
$n$ 空間の次元
$m$ 写真の次元
行列 $P$ カメラ行列(定数倍を除く)
不確定点集合 $Z$ カメラの中心、焦点

多視点多様体

$r$ 個の線形射影 $\varphi_i : \mathbb{P}^n \dashrightarrow \mathbb{P}^{m_i} \ (i=1,\dots , r)$ を用いて、次のような有理写像を考えます。
$$\Phi = (\varphi_1, \dots , \varphi_r) : \mathbb{P}^n \dashrightarrow \prod_{i=1}^r \mathbb{P}^{m_i}$$ この $\Phi$ の像2 $X$ を多視点多様体(multiview variety)と呼びます。

代数ビジョンでは、さまざまな次元、さまざまな配置のカメラに対する多視点多様体や、そのモジュライ空間の幾何学を調べることで、複雑なコンピュータビジョンの問題をシンプルに解くことが目指されています。

たとえば、$n=3, r=2, m_1=m_2=2$ の場合(エピポーラ幾何の場合)の対応を表にすると次のようになります。

多視点多様体 $X$ エピポーラ幾何
$X$ の点 2枚の写真の間の点の対応
$X$ の定義式 基礎行列、エピポーラ制約
$X$ の特異点 エピポール

おわりに

代数ビジョンはまだ文献も少なく、基本的な問題でも分かっていないことが多いです。今後、発展していくことを期待しますが、日本語の文献が見つかれば / 自分で書けば、この記事に追記したいと思います。

一般的な $\Phi$ に対する射影再構成定理について私たちの論文でも議論しましたので、代数幾何に馴染みのある方は眺めて頂けると嬉しいです。


  1. このような代数多様体から低次元の不確定点集合を除いて定まる写像(の同値類)を、有理写像と呼んで、同様のダッシュ矢印で表します。 

  2. 不確定点集合を除いた部分集合の像の閉包のこと。