4章では、確率モデルと識別関数について扱う。この投稿では4章前半についてまとめる。読書会向けのまとめなので、手元に本があること前提で記載。(けっこう大事な章なので説明はのちのち適宜追加予定)
#4章前半の内容
4章前半(4.1節)では、より良い識別とモデルを得るためにデータの持つ測定単位の差異を吸収したり特徴間の相関を無くすための操作として、観測データの線形変換について述べられている。
観測単位や特徴間の相関を無くすためには、データの分布を示すなんらかの統計量が必要となる。代表的なものとして平均ベクトルと共分散行列(分散・共分散行列)があり、確率分布のパラメータと呼ばれる。
##4.1 観測データの線形変換
###4.1.1 平均ベクトルと共分散
【本編に進む前に数学から離れている人向けの復習①】
分散:
各データが平均値(期待値)からどれだけ離れて散らばっているかを示すもの
通常平均値とデータの距離の二乗の平均で求める
共分散:
複数のデータ群を考慮した分散で、各データ群の平均とデータ群内の各データの差
を掛けあわせて平均を取ったもの
分散・共分散行列:
とある変数xの分散は共分散としてはxとxの共分散と表すことができるので、それらを
含んだ共分散行列
標準偏差:
分散は符号の影響を排除し、ばらつきの大きさのみを見るため二乗しているもの
標準偏差は元データの単位と同様になるよう分散の正の平方根を取ったもの
観測データとその確率分布を
観測データ x=\left(x1,...,xd\right)^{T} \in R
\\
確率分布 p\left(x\right)
とした場合の平均ベクトル$\mu$は、各特徴毎の平均値を並べた
\mu=\left(\mu_1,...,\mu_d\right)^{T}=\left(E\{x_1\},...,E\{x_d\}\right)^{T}
で定義される。このときの$E\{x_i\}$はi番目の特徴の期待値でi番目の特徴を表す確率変数$x_i$の確率分布で、その定義はp.36で示される次式の通り。
\mu_i=E\{x_i\}=\int_{R^d}x_ip\left(x\right)dx=\int_{-\infty}^{\infty}x_i\left(x_i\right)dx_i
$p\left(x_i\right)$は$i$番目の特徴を表す確率変数$x_i$の確率分布であり、他の事象に関わりなのない確率である$p\left(x\right)$の周辺確率となる(連続的な確率変数の分布なので積分して求められている?)。観測データが$N$個与えられている場合、平均ベクトルは算術平均を用いて計算する。式はp.37に示される通り(式については本文参照)。
平均ベクトルをとらえたところで、観測データはこの平均ベクトルの周囲に分布し、この分布の広がり方を共分散行列(分散・共分散行列)で表すことができる。ここでは共分散行列$\Sigma$としてp.37の4.1式で示している(式については本文参照)。分散はこの式で示される$\sigma_{ij}$のiとjが等しい場合$\left(j=i\right)$で共分散は等しくない場合となる$\left(i\neq j\right)$。
ここから$\sigma_{ii}=\sigma_i^2$とし、正の平方根となる$\sigma_i$が標準偏差となる。また、式中の$Var\{x\}$は$x$の共分散行列を計算する操作を表す。以降示される$Var\{\}$は同様の操作となる。
$x$を連続量とした場合の共分散行列の各要素$\sigma_{ij}$の計算法は4.2式に示される通りで、$i$番目と$j$番目の特徴の同時確率を用いる(2変数の重なっている部分を求めるので二重積分になっている?)。観測データが$N$個の場合、$n$番目のデータの$i$番目の特徴と$j$番目の特徴をそれぞれ$x_{ni}$、$x_{nj}$と表しp.38の4.3式で表せる(4.2,4.3とも式は本文参照のこと)。
$i$番目と$j$番目の特徴間相関係数を$\rho_{ij}$として、標準偏差$\sigma_i・\sigma_j$、共分散$\rho_{ij}$を用いて表すと以下の4.4式として定義でき、値の範囲は$-1\leq\rho_{ij}\leq1$を取る。
\rho_{ij}=\frac{\rho_{ij}}{\rho_i\rho_j}
4.3式から、$x_i$が$\mu_i$より大きい、もしくは小さい時、$x_j$も$\mu_j$より大きい、もしくは小さくなる場合は正の相関となり、逆に$x_j$が$\mu_j$より小さい、もしくは大きくなる場合は負の相関となる。規則性がない場合、相関係数は0となる。
###4.1.2 観測データの標準化
【本編に進む前に数学から離れている人向けの復習②】
線形変換:
一次変換とも言う。以下の条件が満たされるとき成立する。
線形写像のうち、特に同一次元のベクトル間の変換のことを線形変換(一次変換)という。
n次元ベクトル空間Rに含まれる任意のベクトルxとy及び、任意の実数kについて
$f\left(x+y\right) = f\left(x\right) + f\left(y\right)$
$f\left(kx\right) = kf\left(x\right)$
が満たされる。
学習データを構成する個々の特徴の測定単位の影響を取り除く方法として、個々の特徴の平均を0,分散を1に標準化する。P.38では4.5式と4.6式で特徴$x$の線形変換を$y=ax+b$として、$y$の平均と分散を求め、さらに$x$の平均$\mu$と標準偏差$\sigma$を用いた線形変換$z=\frac{x-\mu}{\sigma}$についてzの平均と分散を計算することで標準化を行っている(いずれも式は本文参照)。
特徴毎に標準化を行うと、測定単位の影響がない特徴ベクトルを構成できる。P.39の図4.1ではデータの標準化とともにデータの分布の中心が原点に移動している様子をみることができる。分布の中心を原点に移動することを中心化という。標準化後は各次元とも一様にデータが広がる。
###4.1.3 観測データの無相関化
観測データの特徴間から相関を無くす処理を無相関化という。主成分分析と密接な関係を持つ処理だが、この節では定義のみ示されている。
【本編に進む前に数学から離れている人向けの復習③】
固有値問題:
固有値問題とは、ある線形空間R上の線形変換Aに対して
$A_x = \lambda_x$ ($x$はベクトル、$\lambda$は実数)
を満たす0でないベクトルxと実数λを求めること。それぞれベクトルxをAの固有ベクトル、実数λをAの固有値という。
実対称行列:
要素が実数で対称な行列
正規直交基底:
ベクトルの大きさが1となり、互いのベクトル(任意の2つのベクトル)が直交するベクトルの組合せ
ノルムが1なので単位ベクトルで、直交はベクトルの内積が0になる。(あとでもう少し詳しく追加するかも)
対角行列:
対角成分以外が0の正方行列
対角化
正方行列を線形変換することで、元の行列と相似な対角行列にすること
観測データから共分散行列Σをもとめ、その固有値問題としてP.40に示される
$\Sigma_s = \lambda_s$
を解くことでd個の固有値と対応する固有ベクトルを求め、4.11式に示される固有ベクトルの行列$S$を定義する。共分散行列が実対称行列であるので、各固有値は実数で固有ベクトルは互いに直行し、かつ、共分散行列の固有ベクトルは長さが1の正規直交基底となる。行列$S$は正規直交で、$S$の線形変換は元の座標系から固有ベクトル方向に回転する回転行列となる。
観測データ$x$の$S^T$による線形変換は$y=S^Tx$で与えられ、平均値及び共分散行列はそれぞれP.41の4.12・4.13式となる。平均ベクトルは元データの平均ベクトルの線形変換、共分散行列は元データの共分散行列に線形変換行列とその逆行列を両側からかけたものとなる。
また4.13式は行列の対角化式であり、4.14式のように表される。対角化により空間の基底、つまり座標系を表すベクトルを替えて固有空間上の固有値として表れるようにする。
共分散行列の固有ベクトルを並べた正規直交行列は、元データを対角化し、各固有値は対応する固有ベクトルの方向の分散となる。変換後の特徴間の相互相関は0となるので、観測データを無相関化できる。概念図としてP.42に示される図4.3の通り、$S$により原座標系が回転され、無相関となっている。固有値、固有ベクトルを求めて、座標系を回転するということは、すべての値を固有ベクトル方向の値として扱えるということになる。
###4.1.4 白色化
共分散行列$\Sigma$を対角化することで特徴間の相関はなくなるが、固有値相当分、特徴量の標準偏差に違いが残るため、これを取り除き、特徴量の標準偏差を1とし、かつ、中心化を行う操作を白色化(whitening)という。白色化後の座標系を$u=\left(u1,....,ud\right)^T$とすると、P.43の4.17式の通りとなる。
u = \Lambda^{-1/2}S^T(x-μ)
$\Lambda^{-1/2}$はP.41の4.14式の各体格要素の平方根をとった行列の逆行列となる。$u$の共分散行列が単位行列となることはP.41の4.18式、4.19式、4.20式に示される通りとなる(式はいずれも本文参照)。
白色化は回転と中心化を行った後に各軸方向の標準偏差が1となるよう正規化されるため、どの方向に対しても、データ分布の標準偏差が単位超球上に乗るようになる。p.44の図4.5に示される通りである。
白色化は単位超球上(イメージする場合は単に球と考えてもみても構わないかも)に射影したデータが、超球上(内?)のどの部分に高密度で分布しているのかを知りたい場合など、データ分布の方向のみが問題となる場合によく利用される。