はじめに
東京大学/株式会社Nospare リサーチャーの栗栖です.
この記事では,多様体上に分布するデータの特徴量として代表的なフレシェ平均の推定手法について紹介します.またEltzner and Huckemann (2019)を参考に,多様体データに特有の性質である「smeariness」について紹介し,多様体データの分析を行う際の注意点についてみていくことにします.
標本フレシェ平均の中心極限定理
まず多様体データの標本フレシェ平均の中心極限定理について紹介しておきます.$(M,d)$を距離関数$d$をもつ($m$次元)リーマン多様体とし,$X_1,\dots, X_n$を$M$上に値をとり,共通の分布$Q$に従う独立なデータとします.
$\mu$を$M$上の分布$Q$のフレシェ平均とし, $\mu$と$0 \in \mathbb{R}^m$の適当な近傍$\tilde{U}$,$U$に対して,$\mu$における$M$の接空間から$M$への指数写像$\rm{Exp}_\mu: U \to \tilde{U}$を考えます.フレシェ平均と指数写像については【経験尤度法(2)多様体データ解析への応用:理論編】の記事も参照してください.
指数写像を用いて(標本)フレシェ関数を定義しておきます.
F(x) = \mathbb{E}[d^2({\rm Exp}_\mu(x),X_1)],\ F_n(x) = {1 \over n}\sum_{i=1}^n d^2({\rm Exp}_\mu(x),X_i)
$F(x)$に対して以下を仮定します:
- $F(x)$は$U$上で2回連続微分可能.
- $F$のヘッセ行列$H=\mathbb{E}[H(0,X_1)]$逆行列をもつ.ここで,
$H(x,y) = ({\partial^2 \over \partial x_j \partial x_k}d^2({\rm Exp}_\mu(x),y))_{1\leq j,k \leq m}$です.
以上の設定の下で以下の結果が成り立つことが知られています(Bhattacharya and Patrangenaru (2005), Corollary 2.1)
\sqrt{n}x_n \stackrel{d}{\to} N_m(0, H^{-1}GH^{-1}).
ここで,$x_n = {\rm Exp}_\mu^{-1}(\mu_n)\in \mathbb{R}^m$, $G = \mathbb{E}\left[G(0, X_1)G(0,X_1)'\right]$,$G(x,y) = ({\partial \over \partial x_1}d^2({\rm Exp}_\mu(x),y),\dots,{\partial \over \partial x_m}d^2({\rm Exp}_\mu(x),y))'$です.
Smeariness
Eltzner and Huckemann (2019)で導入された,多様体データに対する「smeariness」の概念を紹介します.
【定義】(ユークリッド空間に値をとるデータに対するsmeariness, Definition 3.1 in Eltzner and Huckemann (2019))$\mathbb{R}^m$に値をとる確率変数列$\{X_n\}_{n \geq 1}$に対してある$k>-1$と確率変数$X \in \mathbb{R}^m$が存在して$n^{{1 \over 2(k+1)}}X_n \stackrel{d}{\to} X$が成り立つとき,確率変数列$\{X_n\}_{n\geq 1}$は極限分布$X$をもち,$k$-smearyであるという. |
---|
ユークリッドデータに対する通常の中心極限定理は$k=0$に対応しています.ユークリッド空間に値をとるデータに対する smeariness が定義できると$\mathbb{R}^m$から多様体$M$への写像を考えることで多様体データに対する $k$-smeariness を定義することができます.
【定義】(多様体データに対するsmeariness, Definition 3.3 in Eltzner and Huckemann (2019))$m$次元多様体$M$に値をとる確率要素の列$\{\mu_n\}_{n\geq 1}$が$\mu_n\stackrel{p}{\to} \mu $を満たすとする.このとき,$\mu$のある近傍$\tilde{U}$から$\mathbb{R}^m$への微分可能な任意のチャート(局所座標)$\phi^{-1}: \tilde{U} \to \mathbb{R}^m$が存在して$\phi^{-1}(\mu_n) - \phi^{-1}(\mu) \in \mathbb{R}^m$が$k$-smearyであるとき,$\{\mu_n\}_{n\geq 1}$は$k$-smearyであるという. |
---|
2-smeariness をもつ多様体データの例
Eltzner and Huckemann (2019)では2-smeariness をもつ多様体データの例が与えられています.
$2$次元球面$\mathbb{S}^2 = \{x \in \mathbb{R}^3: \|x\|=1 \}$上に値をとる確率変数として以下のものを考えます.
\begin{align*}
X
\begin{cases}
= (0,0,1)' (\text{球面上の「北極」})& \text{with probability $1-\alpha$},\\
\in \{q=(q_1,q_2,q_3)' \in \mathbb{S}^2: q_3 \leq 0\} (\text{球面上の「南半球」})& \text{with probability $\alpha$}
\end{cases}
\end{align*}
さらに$X$は「南半球」上では一様分布であるとします.ここで,$\alpha = 4/(4+\pi)$です.このとき$X_1,\dots,X_n$を上記で定義した$X$と同じ分布をもつ独立な確率要素の列,$\mu_n$を標本フレシェ平均,$\mu=(0,0,1)'$とすると以下の結果が成り立ちます(Theorem 4.3 in Eltzner and Huckemann (2019)).
\left\{n^{1/6}x_n\right\}^{1/3} \stackrel{d}{\to} N(0,\Sigma_2),\ \text{$\Sigma_2$は正定値行列}.
ここで,$1/3$乗はベクトルの成分ごとに適用するものとし,$x_n={\rm Exp}^{-1}_\mu(\mu_n)$です.上記の結果より,標本フレシェ平均$\mu_n$は$2$-smearyであることがわかります.特に
- $X_n$の収束レートはユークリッドデータに対する通常の中心極限定理の収束レート$n^{-1/2}$よりもかなり遅い収束レート$n^{-1/6}$となり,
- $x_n$の漸近分布も正規分布ではない分布になっています.
またこれらの性質に加え,この例ではさらに - フレシェ関数$F(x) = \mathbb{E}[d^2({\rm Exp}_\mu(x),X_1)]$のヘッセ行列$H$は逆行列をもたないことが確認できます.
データ分析上の注意点
以上の考察により,確率ベクトルに対する通常の中心極限定理と同じ結果が成り立たず,この例のような多様体上のデータに対しては,前回の記事で紹介したようなフレシェ平均に関する信頼領域(confidence region)の構成や2標本検定を行うことができない(理論的な正当化ができない)ことを意味しています.
実際に多様体上のデータ分析を行う際には得られたデータの分布が$k$-smeary であるかどうかは通常知りえないため,Eltzner and Huckemann (2019)で指摘された上記の事実は従来のフレシェ平均に対する中心極限定理に基づくデータ分析結果は注意が必要であることを意味しています.言い換えると,中心極限定理に基づくデータ分析方法はデータの分布の smeariness に対して頑健ではないということです.またEltzner (2022)では $k$-smeariness ($0 < k \leq 2$) をもちうるデータの例として古地磁気学における仮想地磁気極(virtual geomagnetic pole)の平均方向(フレシェ平均)の推定の例を挙げています.従って理想的にはデータが従う分布の smeariness に対して頑健なデータ分析手法を用いることが望ましいということがわかります.
【経験尤度法(2)多様体データ解析への応用:理論編】,【経験尤度法(3)多様体データ解析への応用:データ分析編】では,データが smeariness を持つ場合でも適用可能な多様体データ解析の方法について紹介しています.
まとめ
この記事ではEltzner and Huckemann (2019)をもとに「smeariness」と呼ばれる,
多様体上に分布するデータ分析において注意すべき性質について紹介しました.株式会社Nospareには多様体データ分析に限らず,統計学の様々な分野を専門とする研究者が所属しています.統計アドバイザリーやビジネスデータ分析につきましては株式会社Nospareまでお問い合わせください.

参考文献
[1] Bhattacharya, R. and Patrangenaru, V. (2005) Large sample theory of intrinsic and extrinsic sample means on manifolds. Annals of Statistics 33, 1225-1259.
[2] Eltzner, B. (2022) Geometric smeariness-a new phenomenon of Frechet means. Bernoulli 28, 239-254.
[3] Eltzner, B. and Huckemann, S. (2019) A smeary central limit theorem for manifolds with application to high-dimensional spheres. Annals of Statistics 47, 3360-3381.