#PRML(4.1~4.1.7)
##第4章 線形識別モデル
本章は分類問題を解く類似のモデルについて扱う。
入力ベクトル$x$をK個の離散クラス${C}_k$で表されるような決定領域に分類する。
決定領域の境界を決定境界、決定面という。
ここでの線形識別モデルは決定面がxの線形関数であり、D次元入力空間に対し、その決定面がDー1次元の超平面で定義されるもの。
線形決定面で正しく各クラスに分類できるデータ集合を線形分離可能であるという。
目的変数の表現方法
2クラス→ 2値表現
$K > 2$クラス→ 1-of-K符号化法
$K=5$の場合
$t = (0,1,0,0,0)^T$ 式(4.1)
$t_k$の値はクラスが$C_k$であると解釈できる。
分類問題に対する3つのアプローチ(1.5.4)
・識別関数…入力$x$から直接クラス推定する関数の構築(4.1)
・生成モデル…2つの推論(生成)を行なって、ベイズ(4.2)
・識別モデル…事後確率を直接モデル化(4.3)
3章の線形回帰モデルでは入力$X$に対し式(3.1)のような$w$の線形関数で出力値を求めた。
分類問題では離散値をとるクラスラベル、
あるいは一般的に領域(0,1)の値をとる事後確率を予測したい。
なので非線形関数$f(⋅)$で変換し一般化。式(4.3)一般化線形モデル
###4.1 識別関数(判別関数)
入力$x$をK個のクラスの1つ$C_k$に割り当てる関数。
決定面が超平面となる識別関数を取り扱う。
###4.1.1 2クラス
最も簡単な線形識別関数は式(4.4)
$w$は重みベクトル、$w_0$はバイアスパラメータ
$y(x)≥0$ならば入力$x$はクラス$C_1$、それ以外は$C_2$
境界面は$y(x)=0$で定義される。
ベクトル$w$は決定面上にある全てのベクトルに直交する。
バイアスパラメータ$w_0$は決定面の位置を決定する。
決定面から点$x$への直交距離は式(4.7)
ダミー入力値$x_0$を導入、
$\widetilde{w} = (w_0,$w$)$、$\widetilde{x} = (x_0,$x$)$と定義すると式(4.8)
この場合決定面がD+1次元の原点を通るD次元の超平面に。
###4.1.2 多クラス
$K=2$クラスの識別関数を組み合わせて、$K>2$クラスを識別。
・1対他分類器
・1対1分類器
問題点→曖昧な領域が存在する
これは式(4.9)のようなK個の線形関数で構成される単独の$K$クラス識別で避けることができる。
すべての$j≠k$に対し、$y_k(x) > y_j(x)$である場合、点$x$はクラス
$C_k$に割り当てられる。
つまり$C_j$と$C_k$の決定境界は$y_k(x) = y_j(x) = 0$
境界はD-1次元の超平面、式(4.10)
識別器の決定領域は1つに連結していて、凸領域となってる。
###4.1.3 分類における最小二乗
式(4.13)から式(4.14)へ
$\widetilde{W}$は$k$番目の列がD+1次元ベクトル$\widetilde{w} = (w_{k0},$w$_k^T)$で構成される行列。
$\widetilde{x}$はダミー入力値$x_0 = 1$を加えた入力ベクトル$(1,$x$^T)^T$
学習データ集合${x_n,,t_n}$に対し、
$n$番目の行がベクトル$t_n^T$である行列$T$
$n$番目の行がベクトル$\tilde{x}_n^T$である行列$\tilde{X}$
を定義する。この二乗和誤差関数は式(4.15)と書ける。
$\widetilde{W}$に関する導関数を0として、整理すると式(4.16)
$\tilde{X}^†$は$\tilde{X}$の擬似逆行列
結果、式(4.17)が得られる。
問題点
→外れ値に対する頑健さの欠如、正しすぎる予測によって決定境界の位置が著しく変わってしまう
→最小二乗法では3クラスの分類では誤識別してしまう
後の章で適切な確率モデルを学ぶ。
###4.1.4 フィッシャーの線形判別
次元の削減という観点から線形識別モデルを見ることができる。
2クラスの場合、D次元の入力ベクトルを1次元に投影することで相当量の情報の損失が発生。
重みベクトル$w$を調整して、クラスの分離を最大にする射影を選択。
2つのクラスの平均ベクトル、式(4.21)
クラス間の分離、式(4.23)を最大にする射影を選択する。
ここで$w$は単位長とする制限を加える。
射影されたクラスの分散が小さくなるように。
###4.1.5 最小二乗との関連
最小二乗法は目的変数値の集合にできるだけ近い予測をすることが目的。
フィッシャーの判別規準は出力空間でのクラス分離を最大にすること。
目的値変数として1-of-K1符号化法を考えてきたが、異なる目的変数値の表記法を使うと重みに対する最小二乗解がフィッシャーの解と等価になる。
二乗和誤差関数は式(4.31)
式(4.38)の関係が得られる。
###4.1.6 多クラスにおけるフィッシャーの判別
$K > 2$クラスへのフィッシャー判別の一般化。
クラス数$K$$>$入力空間の次元$D$
ベクトル$y$と行列$W$との間に式(4.39)が成り立つ。
クラス内共分散を一般化すると式(4.40)
さらに式(4.41)(4.42)
クラス間共分散行列${S}_B$は式(4.46)
${S}_w$と${S}_B$を$D'$次元に射影して式(4.47)
###4.1.7 パーセプトロンアルゴリズム
2クラスのモデルで、入力ベクトル$x$を変換して得られる特徴量ベクトル$\phi$を得て、式(4.52)を構成する。
ここで非線形関数は式(4.53)で与えられる。
ベクトル$\phi($x$)$はバイアス成分$\phi_0($x$) = 1$を含んでる。
目的変数は$t ∈ $ {-1, 1}、活性化関数と適合が良い。
誤差関数の選択としては、誤識別したパターンの総数が自然だが、勾配が0となってしまい学習アルゴリズムの導出が難しい。
そこでパーセプトロン規準、式(4.54)
パーセプトロンの収束定理から学習データ集合が線形に分離可能な場合、有限回の繰り返しでパーセプトロンの学習アルゴリズムは有限回の繰り返しで厳密解に収束する。
問題点
→分離できない問題なのか、収束が遅いのかが収束するまでわからない
→パラメータの初期値やデータの提示順に依存して様々な解に収束してしまう
→線形分離でないデータ集合に対して、収束しない
→確率的な出力を提供せず、多クラスへの一般化が容易でない