LoginSignup
3
1

More than 5 years have passed since last update.

はじパタの数学関連まとめ  第2章

Last updated at Posted at 2016-11-15

今回はあまり数学で躓く箇所がなさそうなので、無理やり感がありますが一応まとめてみました。

はじパタの数学 第2章

教師付き学習
識別規則は $y=f(x;w)=w_1x_1+…+w_dx_d=w^{\mathrm{T}}x$ で表されます。
ここで、
$x$ :前章で出てきた特徴ベクトル
$w$ :推定されたパラメータ(特徴から識別に用いる関数値を得るためのキー)
です。
では $w$ をどう推定するかという話ですが、これは学習データセット $D_L=(x_i,t_i)$ $(i=1,2…N)$ を用いて行います。ここまで書いてある通りなんですが、この $i$ というのがデータの番号($N$個あるうちの何番目のデータか)であることに注意しないとやや混乱するかもしれません。上の識別規則で出てきた $x_1$ はあるデータ $x$ の1番目の特徴ですので $x_{11}$ とした方が分かりやすいかもしれません。くどいですね…。
この表記に直してテキストの $w$ を少しずつ修正する方法を見てみましょう。
分類されるクラスの数はK個、現在 $τ$ 回目の学習としましょう。まず持っているデータを、学習データ $D_L$ を $(x_1,t_1)〜(x_n,t_n)$ 、テストデータ $D_T$ を $(x_{n+1},t_{n+1})〜(x_N,t_N)$ に分けます。使うデータはi番目のデータ $(x_i,t_i)$ を使うこととします。教師データは $t_i=(1,0,…,0)^{\mathrm{T}}$ であったとします。これを用いてパラメータ $w(τ)$ が推定されたとします。
この推定された $w(τ)$ を用いて$y_i=f(x_i;w(τ))=(y_1,…,y_K)^{\mathrm{T}}$ となります。ここで先ほどの記法を用いると $x_i=(x_{i1},x_{i2},…,x_{iK})^{\mathrm{T}}$ です。
調整は、教師データ $t_i=(1,0,…,0)^{\mathrm{T}}$ と、先ほど求めた $(y_1,…,y_K)^{\mathrm{T}}$ の誤差がなるべく小さくなるように行います。これを学習と言います。
最後に評価はテストデータセットを用いて性能の評価がなされます。

汎化能力の評価法とモデル選択
バイアスと分散の成分を導く式を追ってみることにします。
$(y(x;D)-h(x))^2$
$=(y(x;D)-E_D[y(x;D)]+E_D[y(x;D)]-h(x))^2$
$=(y(x;D)-E_D[y(x;D)])^2+(E_D[y(x;D)]-h(x))^2+2(y(x;D)-E_D[y(x;D)])(E_D[y(x;D)]-h(x))$
最初の変形は少しテクニカルな感じですが確率・統計界隈ではよくする変形です() あとは普通に展開しただけです。
最後に両辺の期待値($E_D[]$)をとります。
左辺は $E_D[(y(x;D)-h(x))^2]$ です。
右辺は第一項目は分散項 $E_D[(y(x;D)-E_D[y(x;D)])]$ になり
第二項目はバイアス項 $(E_D[y(x;D)]-h(x))^2$ になります。こちらは式が変わっていませんが、これは期待値をとったこの第二項が定数だからです。($E_D[y(x;D)]$はもう期待値をとった後ですし、 $h(x)$ も $D$ によって変化しません)
最後に残った第三項も同じ要領で $2(E_D[y(x;D)]-h(x))$ は定数ですので問題は残った $(y(x;D)-E_D[y(x;D)])$ ですが、これは $E_D[(y(x;D)-E_D[x;D])]=0$ ですから、全体をまとめると
$E_D[(y(x;D)-h(x))^2]$ (分散項) $+$ $(E_D[y(x;D)]-h(x))^2$ (バイアス項)となります。
尚、バイアスと分散はトレードオフ関係にあります。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1