ロジスティック回帰 or 線形判別解析(LDA) 1
\label{}
log\frac{Pr(G=k|X=x)}{Pr(G = K|X = x)}
= log \frac{\pi_k}{\pi_K} - \frac{1}{2}(\mu_k + \mu_K)^T \Sigma^{-1} (\mu_k - \mu_K) + x^T \Sigma^{-1}(\mu_k - \mu_K) \\
= a_{k0} + a_{k}^T x
log\frac{Pr(G=k|X=x)}{Pr(G = K|X = x)} = \beta_{k0} + \beta^T_k x
これらはおなじ形をしている。相違点は係数の推測方法である。
ロジスティック回帰の方がより一般的であり、より推測が少ない。
ロジスティック回帰 or 線形判別解析(LDA) 2
密度$X$と$G$を結合することができて
Pr(X, G=X) = Pr(X)Pr(G=k|X)
とかける。
Pr(X)は入力$X$の周辺密度関数を表している。
ロジスティック回帰 or 線形判別解析(LDA) 3
ロジスティック回帰と線形判別解析の両方で右辺はロジット線形(謎)の形をしている。
Pr(G=k|X=x) = \frac{e^{\beta_{k0}} + \beta_k^T x}{1 + \Sigma^{K-1}_{l=1} e^{\beta_{l0} + \beta^T_l x}}
再び任意の参考である最後のクラス(謎)を選択する。
ロジスティック回帰 or 線形判別解析(LDA) 4
ロジスティック回帰の最適化
ロジスティック回帰モデルは Pr(X)の任意の密度関数における $X$の周辺密度関数であり、
条件付き尤度(Pr(G=k|X)の多項尤度)を最大化させることによってPr(G|X)のパラメーターを最適化する。
しかし、Pr(X)は完全に無視され、各観測点で質量$\frac{1}{N}$である経験的分布関数を利用して
周辺密度は完全にノンパラメトリックの非制限な状態で推定される。
(謎)
ロジスティック回帰 or 線形判別解析(LDA) 5
線形回帰解析の最適化
結合密度に基づいたログ尤度を最大化することで線形回帰解析を最適化できる。
Pr(X, G=k) = \phi(X;\mu_k, \Sigma)\pi_k
$\phi$はガウス密度関数である。
ロジスティック回帰 or 線形判別解析(LDA) 5
条件付きの状態とは異なり、周辺密度Pr(X)は混合密度として働く。
Pr(X) = \Sigma^{K}_{k=1} \pi_k \phi(X;\mu_k, \Sigma)
ロジスティック回帰 or 線形判別解析(LDA) 6
外れ値があるとき
ロジスティック回帰:強い $because$ 重みを下げる
LDA:弱い
超平面が完璧に引くことができるとき
ロジスティック回帰:最大尤度は不定となる → 最適化できない
LDA:よく定義される。 $\because$ 周辺尤度関数は退化を許さない
超平面分離 1
本章では超平面分離識別器を取り扱う。
その手順において データを出来る限り異なるクラスに分ける線形決定境界 をつくる。
これらは12章で議論するサポートベクター識別器の基礎となる。このセクションの数学的レベルは少し高いかもしれない。
超平面分離 2
図1.超平面によって分離された例。オレンジの線は最小二乗の解であり、1つ誤識別している。
2つの青い線で示した超平面はパーセプトロンの異なる初期値によって見つけられた。
図1は$R^2$空間において2クラスに分類された20の点を示している。
オレンジの線は最小二乗法で求められており
{x : βˆ0 + βˆ1x1 + βˆ2x2 = 0}
と表される。
最小二乗法は1つの誤識別をしたので点の分離は完璧にできていない。
この境界面はLDAでも同様に見つけられた。
この式のような識別器はパーセプトロン(入力特徴の線形組み合わせを計算し、符号を返す)と呼ばれる。
超平面分離 3
話を進める前にベクトル代数に関して少し見ておきましょう。
図2は超平面または $f(x)=β_0+β_Tx=0$によって定められる アフィン集合$L$ を表す。
$R^2$なので線である。(超平面ではない)
いくつか条件を与える
1.いずれの$x_1, x_2$ も$L$(β^T(x_1−x_2)=0)上にある。
2.いずれの$x_0$ も $L$ ($β^Tx_0 =−β_0$) 上にある。
3.いずれの