$\large (A-1)$ $\Large 多項式における1次元入力非線型方程式$
二乗誤差$\epsilon^2$およびそれに関するベクトル変数${\bf w}$, ${\bf x}$について求める.
例えば1次元であれば, 最小二乗法は$y=ax+b$から, 傾き$a$, 切片$b$を求めるが, 今回のような多次元なものに関しては, ベクトル変数${\bf w}$を解くことによって二乗誤差$\epsilon^2$を最小化するのが目的である.
\begin{align}
\epsilon^{2} =&\sum_{i=1}^{N} \Bigl(
y_i-f({\bf x}_i,{\bf w})
\Bigr)^2 \\
{\bf w}=&[w_0 \ w_1 \ w_2 \cdots w_M]^T \\
{\bf x}_i=&[x_{i_0} \ x_{i_1} \ x_{i_2} \cdots x_{i_M}]^T \\
\end{align}
と定義する. ちなみに, $w_0$はここでは切片, $w_1$以降は回帰直線の勾配を決める成分に相当する. このとき関数$f({\bf x}_i,{\bf w})$は,
f({\bf x}_i,{\bf w})=w_0+(x_{i_1}w_1+x_{i_1}^2w_2+\cdots+x_{i_1}^kw_k)+(x_{i_2}w_{k+1}+x_{i_2}^2w_{k+2}+\cdots+x_{i_2}^kw_{2k}) \\
+\cdots+(x_{i_M}w_{k(M-1)+1}+x_{i_M}^2w_{k(M-1)+2}+\cdots+x_{i_M}^kw_{kM})
を満たすとする.
$\epsilon^2$については, 極小値をとるように値をとる必要があるため $\frac{\partial \epsilon^2}{\partial {\bf w}}=0$である. したがって, ${\bf w}$の各成分について以下が成り立つ.
\begin{align}
\frac{\partial \epsilon^2}{\partial w_0}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x}_i,{\bf w})
\Bigr)=0 \\
\frac{\partial \epsilon^2}{\partial w_1}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x}_i,{\bf w})・x_{i_1}
\Bigr)=0 \\
\frac{\partial \epsilon^2}{\partial w_2}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x}_i,{\bf w})・x_{i_1}^2
\Bigr)=0 \\
\vdots \\
\frac{\partial \epsilon^2}{\partial w_{lk+m}}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x},{\bf w})・x_{i_{l+1}}^m
\Bigr)=0 \\
\vdots \\
\frac{\partial \epsilon^2}{\partial w_{kM}}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x},{\bf w})・x_{i_M}^k
\Bigr)=0 \\
\end{align}
展開すると
\begin{align}
&Nw_0&+&\sum_{i=1}^{N}{x_{i_1}w_1}&+&\sum_{i=1}^{N}{x_{i_1}^2w_2}
&+&\cdots&+&\sum_{i=1}^{N}{x_{i_{l+1}}^kw_{lk+m}}&+&\cdots&+&\sum_{i=1}^{N}{x_{i_M}^kw_{kM}}
&=&\sum_{i=1}^{N}y_i. \\
&\sum_{i=1}^{N}{x_{i_1}w_0}&+&\sum_{i=1}^{N}{x_{i_1}^2w_1}&+&\sum_{i=1}^{N}{x_{i_1}^3w_2}
&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}x_{i_{l+1}}^kw_{lk+m}}&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}x_{i_M}^kw_{kM}}
&=&\sum_{i=1}^{N}x_{i_1}y_i. \\
&\sum_{i=1}^{N}{x_{i_1}^2w_0}&+&\sum_{i=1}^{N}{x_{i_1}^3w_1}&+&\sum_{i=1}^{N}{x_{i_1}^4w_2}
&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}^2x_{i_{l+1}}^{k+1}w_{lk+m}}&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}^2x_{i_M}^{k+1}w_{kM}}
&=&\sum_{i=1}^{N}x_{i_1}^2y_i. \\
\vdots \\
&\sum_{i=1}^{N}{x_{i_1}^kw_0}&+&\sum_{i=1}^{N}{x_{i_1}^{k+1}w_1}&+&\sum_{i=1}^{N}{x_{i_1}^{k+2}w_2}
&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}^{k-1}x_{i_{l+1}}^{2k}w_{lk+m}}&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}^{k-1}x_{i_M}^{k+1}w_{kM}}
&=&\sum_{i=1}^{N}x_{i_1}^{k-1}y_i. \\
\end{align}
となる.
行列表示にすると,
\begin{bmatrix}
N & \sum_{i=1}^{N}{x_{i_1}} & \sum_{i=1}^{N}{x_{i_1}}^2 & \cdots & \sum_{i=1}^{N}{x_{i_{l+1}}^k} & \cdots & \sum_{i=1}^{N}{x_{i_M}^k} \\
\sum_{i=1}^{N}{x_{i_1}} & \sum_{i=1}^{N}{x_{i_1}}^2 & \sum_{i=1}^{N}{x_{i_1}}^3 & \cdots & \sum_{i=1}^{N}{x_{i_1}x_{i_{l+1}}}^k & \cdots & \sum_{i=1}^{N}{x_{i_1}x_{i_M}}^k \\
\sum_{i=1}^{N}{x_{i_1}}^2 & \sum_{i=1}^{N}{x_{i_1}}^3 & \sum_{i=1}^{N}{x_{i_1}}^4 & \cdots & \sum_{i=1}^{N}{x_{i_1}^2x_{i_{l+1}}}^{k+1} & \cdots & \sum_{i=1}^{N}{x_{i_1}^2x_{i_M}}^{k+1} \\
\vdots & & & \ddots & & & \vdots \\
\sum_{i=1}^{N}{x_{i_1}^kw_0} &\sum_{i=1}^{N}{x_{i_1}}^{k+1} & \sum_{i=1}^{N}{x_{i_1}}^{k+2} & \cdots & \sum_{i=1}^{N}{x_{i_1}^{k-1}x_{i_{l+1}}^{2k}} & \cdots & \sum_{i=1}^{N}{x_{i_1}^{k-1}x_{i_M}^{k+1}}
\end{bmatrix}
・
\begin{bmatrix}
w_0 \\
w_1 \\
w_2 \\
\vdots \\
w_{lm} \\
\vdots \\
w_{kM+1}
\end{bmatrix}
=
\begin{bmatrix}
\sum_{i=1}^{N}y_i \\
\sum_{i=1}^{N}x_{i_1}y_i \\
\sum_{i=1}^{N}x_{i_1}^2y_i \\
\vdots \\
\sum_{i=1}^{N}x_{i_1}^ly_i \\
\vdots \\
\sum_{i=1}^{N}x_{i_1}^{k-1}y_i
\end{bmatrix}
$\large (A-2)$ $\Large 1次方程式における多次元入力非線型方程式$
同様にして二乗誤差$\epsilon^2$を定義する. この時, $\epsilon^2$は
\begin{align}
\epsilon^{2} =&\sum_{i=1}^{N} \Bigl(
y_i-f({\bf x}_i,{\bf w})
\Bigr)^2 \\
\end{align}
を定義するが, ${\bf w}$および${\bf x}_i$については,
{\bf w}=[w_0 \ w_1 \ w_2 \cdots w_M]^T \\
{\bf x}_i=[1 \ x_{i_1} \ x_{i_2} \cdots x_{i_M}]^T \\
とあらわされる.
${\bf w}$の各成分については (A-1) に倣い,
\begin{align}
\frac{\partial \epsilon^2}{\partial w_0}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x}_i,{\bf w})
\Bigr)=0 \\
\frac{\partial \epsilon^2}{\partial w_1}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x}_i,{\bf w})・x_{i_1}
\Bigr)=0 \\
\frac{\partial \epsilon^2}{\partial w_2}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x}_i,{\bf w})・x_{i_2}
\Bigr)=0 \\
\vdots \\
\frac{\partial \epsilon^2}{\partial w_{kM}}=&\sum_{i=1}^{N}\Bigl(
y_i-f({\bf x},{\bf w})・x_{i_M}
\Bigr)=0 \\
\end{align}
となる。 展開すると
\begin{align}
&Nw_0&+&\sum_{i=1}^{N}{x_{i_1}w_1}&+&\sum_{i=1}^{N}{x_{i_1}^2w_2}
&+&\cdots&+&\sum_{i=1}^{N}{x_{i_{l+1}}^kw_{lk+m}}&+&\cdots&+&\sum_{i=1}^{N}{x_{i_M}^kw_{kM}}
&=&\sum_{i=1}^{N}y_i. \\
&\sum_{i=1}^{N}{x_{i_1}w_0}&+&\sum_{i=1}^{N}{x_{i_1}^2w_1}&+&\sum_{i=1}^{N}{x_{i_1}^3w_2}
&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}x_{i_{l+1}}^kw_{lk+m}}&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}x_{i_M}^kw_{kM}}
&=&\sum_{i=1}^{N}x_{i_1}y_i. \\
&\sum_{i=1}^{N}{x_{i_1}^2w_0}&+&\sum_{i=1}^{N}{x_{i_1}^3w_1}&+&\sum_{i=1}^{N}{x_{i_1}^4w_2}
&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}^2x_{i_{l+1}}^{k+1}w_{lk+m}}&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}^2x_{i_M}^{k+1}w_{kM}}
&=&\sum_{i=1}^{N}x_{i_1}^2y_i. \\
\vdots \\
&\sum_{i=1}^{N}{x_{i_1}^kw_0}&+&\sum_{i=1}^{N}{x_{i_1}^{k+1}w_1}&+&\sum_{i=1}^{N}{x_{i_1}^{k+2}w_2}
&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}^{k-1}x_{i_{l+1}}^{2k}w_{lk+m}}&+&\cdots&+&\sum_{i=1}^{N}{x_{i_1}^{k-1}x_{i_M}^{k+1}w_{kM}}
&=&\sum_{i=1}^{N}x_{i_1}^{k-1}y_i. \\
\end{align}
となる.
※¹ 展開した項における"$N$"は, $\sum_{i=1}^{N} 1=N$ であることに起因する.
※² ただし, ここでいう極小値は多変数であるという観点から最小値と必ずしも一致するわけではない.