More than 3 years have passed since last update.

機械学習第二章非線形回帰モデル

Posted at 2021-02-11

y=w_0+w_1x+w_2x_2+...+w_mx_m

→非線形な回帰を考えたい
→xの代わりにΦ(x)を用いる。

*ｘからΦ(x)に代えてもwについては線形のまま

予測model;

\hat{y}= w_0+w_1\phi_1(x) +w_2\phi_2(x)+...+w_m\phi_m(x)

これは重みwについて線形

多項式

\phi_j=x^j

ガウス型基底

\phi_j(x)=\exp\biggl(\frac{(x-\mu_j)^2}{2h_j} \biggr)

基底展開法も線形回帰と同じ枠組みで推定可能

x-i=(x_i1,x_i2,...,x_im)\in \mathbb{R}^m

\phi(x_i)=(\phi_1(x_i),\phi_2(x_i),...,\phi_k(x_i))^T\in \mathbb{R}^k

\Phi^(train)=(\phi(x_1),\phi(x_2),...,\phi(x_n))^T\in \mathbb{R}^{n×k}

\hat{y}=\Phi(\Phi^{(tarin)T}\Phi^{(train)})^{-1}\Phi^{(train)T}y^{(train)}

不要な基底関数を削除
基底関数の数、位置やバンド幅によりモデルの複雑さが変化
解きたい問題に対して多くの基底関数を用意してしまうと過学習の問題が起こるため、適切な基底関数を用意(CVなどで選択)
正則化法(罰則化法）
「モデルの複雑さに伴って、その値が大きくなる正則化項(罰則項)を課した関数」を最小化
正則化（平滑化）パラメータ

S_\gamma = (y-\Phi w)^T(y-\Phi w)+\gamma R(w)

訓練誤差もテスト誤差もどちらも小さい→汎化しているモデルの可能性
訓練誤差は小さいがテスト誤差も大きい→過学習
訓練誤差もテスト誤差もどちらも小さくならない→未学習
回帰の場合には陽に解が求まります（学習誤差と訓練誤差の値を比較）

有限のデータを学習用とテスト用の２つに分割し、「予測精度」や「誤り率」を推定する為に使用

・学習用を多くすればテスト用が減り学習精度は良くなるが、性能評価の精度は悪くなる
・逆にテスト用を多くすれば学習用が減少するので、学習そのものの精度が悪くなることになる。
・手元にデータが大量にある場合を除いて、良い評価性能を与えないという欠点がある。

基底展開法に基づく非線形回帰モデルでは、基底関数の数、位置、バンド幅の値とチューニングパラメータをホールドアウト値を小さくするモデルで決定する。

機械学習 第二章 非線形回帰モデル