7.1 方向データの確率分布
方向データとは
フォン・ミーゼス・フィッシャー分布
$M(x|\mu, \kappa) = \frac{\kappa^{M/2-1}}{(2\pi)^{M/2}I_{M/2-1}(\kappa)} exp(\kappa\mu^{T}x)$
- 平均方向$\mu$
- 集中度$\kappa$
- 第1種変形ベッセル関数$I_{\alpha}(\kappa)$
7.2 平均方向の最尤推定
分布のパラメータのうち、平均方向をデータから推定する。(集中度$\kappa$は直接求めない。)
尤度
$L(\mu, \kappa|D) = ln\Pi_{n=1}^{N}c_{M}(\kappa)exp(\kappa\mu^Tx^{(n)}) = \sum_{n=1}^{N}(lnc_{M}(\kappa) + \kappa\mu^Tx^{(n)})$
最尤推定
尤度$L$を最大化する平均方向ベクトル$\mu$を求める。
拘束条件 $\mu^T\mu = 1$をラグランジュ係数で取り込んでを解くと
$\hat{\mu} = \frac{m}{\sqrt{m^Tm}}$
$ m \equiv \frac{1}{N}\sum_{n=1}^{N}x^{(n)}$
結果は、データ平均ベクトルを長さ1に規格化したもの
#7.3 方向データの異常度とその確率分布
異常度の定義
データ$x'$の異常度
$a(x') = 1- μ^Tx'$
平均方向ベクトル$\mu$との距離を、内積を用いて表現。
異常度の確率分布
結論:異常度$a$の確率分布はχ二乗分布となる
$M(\mu, \kappa)$に従う$x'$がある時、異常度$a$の分布は
$p(a) = \int_{S_M}dx\delta(a-(1-\mu^Tx)) C_M(\kappa)exp(\kappa\mu^Tx)$
$u=\cos\theta_1$を用いて置換積分し、$a\ll1$を用いると
$p(a)\propto a^{(M-1)/2-1}exp(-\kappa a)$
これは、自由度$M-1$, スケール因子$1/2\kappa$のχ二乗分布
7.4 積率法によるχ二乗分布の当てはめ
χ二乗分布のパラメータ $m, s$を、データから推定する。
$m, s$のχ二乗分布の1次・2次モーメントは
$<a> = \int_0^{\infty}a\chi^2(a|m,s)da = ms$
$<a^2> = \int_0^{\infty}a^2\chi^2(a|m,s)da = m(m+2)s^2 $
データから求めた以下のaの1次・2次モーメントをこれらと等置して、$m, s$を求める
$<a> = \frac{1}{N}\sum_{n=1}^{N}a^{(n)}$
$<a^2> = \frac{1}{N}\sum_{n=1}^{N}a^{(n)^2}$
求めた$\hat{m}_{mo}$は一般にMよりも小さい事が多く、データの有効次元と解釈できる。