今回はあまり数学で躓く箇所がなさそうなので、無理やり感がありますが一応まとめてみました。
#はじパタの数学 第2章
教師付き学習
識別規則は $y=f(x;w)=w_1x_1+…+w_dx_d=w^{\mathrm{T}}x$ で表されます。
ここで、
$x$ :前章で出てきた特徴ベクトル
$w$ :推定されたパラメータ(特徴から識別に用いる関数値を得るためのキー)
です。
では $w$ をどう推定するかという話ですが、これは学習データセット $D_L=(x_i,t_i)$ $(i=1,2…N)$ を用いて行います。ここまで書いてある通りなんですが、この $i$ というのがデータの番号($N$個あるうちの何番目のデータか)であることに注意しないとやや混乱するかもしれません。上の識別規則で出てきた $x_1$ はあるデータ $x$ の1番目の特徴ですので $x_{11}$ とした方が分かりやすいかもしれません。くどいですね…。
この表記に直してテキストの $w$ を少しずつ修正する方法を見てみましょう。
分類されるクラスの数はK個、現在 $τ$ 回目の学習としましょう。まず持っているデータを、学習データ $D_L$ を $(x_1,t_1)〜(x_n,t_n)$ 、テストデータ $D_T$ を $(x_{n+1},t_{n+1})〜(x_N,t_N)$ に分けます。使うデータはi番目のデータ $(x_i,t_i)$ を使うこととします。教師データは $t_i=(1,0,…,0)^{\mathrm{T}}$ であったとします。これを用いてパラメータ $w(τ)$ が推定されたとします。
この推定された $w(τ)$ を用いて$y_i=f(x_i;w(τ))=(y_1,…,y_K)^{\mathrm{T}}$ となります。ここで先ほどの記法を用いると $x_i=(x_{i1},x_{i2},…,x_{iK})^{\mathrm{T}}$ です。
調整は、教師データ $t_i=(1,0,…,0)^{\mathrm{T}}$ と、先ほど求めた $(y_1,…,y_K)^{\mathrm{T}}$ の誤差がなるべく小さくなるように行います。これを学習と言います。
最後に評価はテストデータセットを用いて性能の評価がなされます。
汎化能力の評価法とモデル選択
バイアスと分散の成分を導く式を追ってみることにします。
$(y(x;D)-h(x))^2$
$=(y(x;D)-E_D[y(x;D)]+E_D[y(x;D)]-h(x))^2$
$=(y(x;D)-E_D[y(x;D)])^2+(E_D[y(x;D)]-h(x))^2+2(y(x;D)-E_D[y(x;D)])(E_D[y(x;D)]-h(x))$
最初の変形は少しテクニカルな感じですが確率・統計界隈ではよくする変形です() あとは普通に展開しただけです。
最後に両辺の期待値($E_D[]$)をとります。
左辺は $E_D[(y(x;D)-h(x))^2]$ です。
右辺は第一項目は分散項 $E_D[(y(x;D)-E_D[y(x;D)])]$ になり
第二項目はバイアス項 $(E_D[y(x;D)]-h(x))^2$ になります。こちらは式が変わっていませんが、これは期待値をとったこの第二項が定数だからです。($E_D[y(x;D)]$はもう期待値をとった後ですし、 $h(x)$ も $D$ によって変化しません)
最後に残った第三項も同じ要領で $2(E_D[y(x;D)]-h(x))$ は定数ですので問題は残った $(y(x;D)-E_D[y(x;D)])$ ですが、これは $E_D[(y(x;D)-E_D[x;D])]=0$ ですから、全体をまとめると
$E_D[(y(x;D)-h(x))^2]$ (分散項) $+$ $(E_D[y(x;D)]-h(x))^2$ (バイアス項)となります。
尚、バイアスと分散はトレードオフ関係にあります。