観測データの線形変換
・平均ベクトル
・共分散行列
・標準化
・無相関化
・白色化
確率モデル
・正規分布関数
・正規分布から導かれる識別関数
硬貨のパラメータによる分類を考える
【硬貨】
・重さ:10g
・直径:1.2cm
・色:銀
・硬貨の重さや直径は、測定単位(g, kg, mm, cm)によって数値に大きな違いが生じる
これらを特徴として識別を行う場合、測定単位を特徴量の大きさが同じように揃えた方が良い
・硬貨の直径と重さには相関があるが、相関があるとどちらか一方だけの特徴があれば良い
そのため、特徴間には相関を無くした方がよい
測定単位の違いを吸収、特徴間の相関をなくすためには、学習データの分布を表す統計量が必要になる
その代表例が平均ベクトルと共分散行列であり、確率分布のパラメータとよばれる
パラメータがわかれば、特徴量の線形変換によって単位の違いや相関をなくすことができる!
データ分布はパラメータを用いた確率モデルで表現することができる。そのため、確率モデルを用いてクラスの事後確率が表現できるので、誤り率最小となるベイズの識別規則を構成する事が出来る
#4.1 観測データの線形変換
#4.1.1 平均ベクトルと共分散行列
観測データはd次元の特徴ベクトルで表される
x = (x1, x2, ・・・,xd)^T
□分布から算出する場合には期待値を取る
xは観測データごとに観測するので、確率変数ベクトルとなる
その確率分布をp(x)とすれば、
平均ベクトルμ = (μ1, μ2, ・・・,μd)^T = (E{x1}, E{x2}, ・・・, E{xd})^T
E{xi}:i番目の特徴の期待値
E{xi} = ∫_-∞^∞ xip(xi)dxi
p(xi):xiの確率分布
□観測データがN個と決まっている場合には平均を取る
μ = \frac{1}{N}\sum_{i-1}^{N} x_i
観測データは平均ベクトルの周りに分布するため、以下の共分散行列Σで表す
Σ = Var{x} = E((x - μ)(x - μ)^T)
##4.1.2 観測データの標準化
測定単位の取り方で大きな値にも小さな値にもなる
測定単位の影響を取り除く方法が、個々の特徴を平均0,分散1に標準化する事である
【図4.1】 データの標準化
x1, x2 を z1, z2と線形変換して標準化する
行う事としては平均を0にずらす、分散を1にずらす事
x→zに線形変換する
z = \frac{x-μ}{σ}
##4.1.3 観測データの無相関化
詳細は9.2節で行うそうです
Σの固有値問題
Σs = λs
を解いて得られたd個の固有値
※固有値:変換前と変換後のベクトルの長さの比
λ1 > λ1 > ・・・ λd
対応する固有ベクトル
※方向が変わらず、長さだけが変わるベクトル
S1, S2, ・・・ Sd
これらの固有ベクトルを並べて行列Sを定義する
S = (S1, S2, ・・・ Sd)
Sによって変換された特徴間の相関係数は0になる
y = S^Tx
で線形変換する
E{y} = E(S^Tx)\\
= S^Tμ
var(y) = E{y-E{y})(y-E(y))T}\\
= S-1E{(x-μ)(x-μ)T}S\\
= S^{-1} Σ S\\
= Λ
※Λ:λ(らむだ)の大文字?
これによって分散共分散行列の共分散部分がoになっている事がわかる
##4.1.4 白色化
無相間化すれば相関はなくなるが、固有値に相当する分だけ特徴量の標準偏差に違いが残る
この違いをなくす
すべての標準偏差を1に正規化し、かつ中心化を行う操作を白色化という
白色化後の座標をμ = (μ1, μ2, ・・・ μd)とすれば
u=Λ^{\frac{-1}{2}}S^T(x−μ)\\
E{u} = Λ^{\frac{-1}{2}}S^T(E(x)−μ)\\
=Λ^{\frac{-1}{2}}S^T(μ−μ)\\
=0\\
Var(u) = E(uu^T)\\
=E{Λ^{\frac{-1}{2}}S^T(x−μ)(x−μ)^TS Λ^{\frac{-1}{2}}}\\
=Λ^{\frac{-1}{2}}S^{−1}E((x−μ)(x−μ)^T)SΛ^{\frac{-T}{2}}\\
=Λ^{\frac{-1}{2}}S^{−1}ΣSΛ^{\frac{-T}{2}}\\
=Λ^{\frac{-1}{2}}ΛΛ^{\frac{-T}{2}}\\
=I\\
※白色化は、単位超玉上に射影したデータの高密度方向を検出する場合のように
データ分布の方向のみが問題となるような場合によく利用される
#4.2 確率モデル
学習データの分布を表現するには
パラメトリックモデル
学習データから推定した統計量(パラメータ)を用いて構成した確率モデルで分布を表現する
・二項分布
・多項分布
・ポアソン分布
・正規分布
ノンパラメトリックモデル
特定の確率モデルを仮定せず、学習データそのものを用いてデータの分布を表現する
・ヒストグラム法
・K最近傍法
・パルツェン密度推定
今回は正規分布に着目する
##4.2.1 正規分布関数
正規分布は次の式で表される
N(x|μ, σ^2)=\frac{1}{\sqrt{2π}σ}exp^{-\frac{(x−μ)^2}{2σ^2}}
正規分布の形を決めるパラメータは
平均値μ,分散σ2
【図4.7】
確率変数がd個の要素を持つベクトルで与えられる場合
d次元の多次元正規分布関数となり
N(x|μ,Σ)= \frac{1}{2π^{\frac{d}{2}}|Σ_i|^{\frac{1}{2}}}exp(−\frac{1}{2}(x−μ_i)^T\sum_{i}^{-1}(x−μ_i))
で定義される
ここで、μは平均ベクトル、Σは共分散行列を表す
##4.2.2 正規分布から導かれる識別関数
多次元正規分布関数(モデル)を3章で行なったベイズの誤り率最小識別規則に使用する事で
モデルを識別関数として使用する事ができる
i番目のクラスのクラス条件付き確率が次の正規分布をしていると仮定して、 ベイズの誤り率最小識別規則を満たす識別関数を求める
P(x|C_i)=\frac{1}{2π^{\frac{d}{2}}|Σ_i|^{\frac{1}{2}}}exp(−\frac{1}{2}(x−μ_i)^T\sum_{i}^{-1}(x−μ_i))
クラスの事前確率をP(Ci)とすれば、事後確率は
P(C_i|\frac{P(Ci)}{2π^{\frac{d}{2}}|Σ_i|^{\frac{1}{2}}}exp(−\frac{1}{2}(x−μ_i)^T\sum_{i}^{-1}(x−μ_i))}
この式の対数をとると
ln(P(Ci))−\frac{d}{2}ln(2π)−\frac{1}{2}ln(|Σ_i|)−\frac{1}{2}(x−μ_i)T\sum_{−1}^{i}(x−μ_i)
各クラスに共通に現れる項を省略し、符号を反転(-2をかける)したものをgi(x)とおく
g_i(x)=(x−μ_i)T\sum_{−1}^{i}(x−μ_i)+\frac{1}{2}ln(|Σ_i|)−2ln(P(C_i))
このgi(x)が最小となるクラスを選択すれば良い