2層フィードフォワードニューラルネットの実装
3クラス分類用にデータを用意して出力する。
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from scipy.optimize import minimize
# データ生成
np.random.seed(seed=1)
N = 200
K = 3
T = np.zeros((N, 3))
X = np.zeros((N, 2))
X_range0 = [-3, 3]
X_range1 = [-3, 3]
Mu = np.array([[-.5, -.5], [.5, 1.0], [1, -.5]])
Sig = np.array([[.7, .7], [.8, .3], [.3, .8]])
Pi = np.array([0.4, 0.8, 1])
for n in range(N):
wk = np.random.rand()
for k in range(K):
if wk < Pi[k]:
T[n, k] = 1
break
for k in range(2):
X[n, k] = (np.random.randn() * Sig[T[n, :] == 1, k] + Mu[T[n, :] == 1, k])
# 2分類のデータをテスト・訓練データに分割
TestRatio = 0.5
X_n_training = int(N * TestRatio)
X_train = X[:X_n_training, :]
X_test = X[X_n_training:, :]
T_train = T[:X_n_training, :]
T_test = T[X_n_training:, :]
# データを'class_data.npz'に保存
np.savez('class_data.npz', X_train=X_train, T_train=T_train, X_test=X_test, T_test=T_test, X_range0=X_range0, X_range1=X_range1)
# データの図示
def show_data(x, t):
wk, n = t.shape
c = [[0, 0, 0], [.5, .5, .5], [1, 1, 1]]
for i in range(n):
plt.plot(x[t[:, i] == 1, 0], x[t[:, i] == 1, 1], linestyle='none', marker='o', markeredgecolor='black', color=c[i], alpha=0.8)
plt.grid(True)
plt.figure(1, figsize=(8, 3.7))
plt.subplot(1, 2, 1)
show_data(X_train, T_train)
plt.xlim(X_range0)
plt.ylim(X_range1)
plt.title('Training Data')
plt.subplot(1, 2, 2)
show_data(X_test, T_test)
plt.xlim(X_range0)
plt.ylim(X_range1)
plt.title('Test Data')
plt.show()
2層フィードフォワードニューラルネットを定義する関数をfnnとして出力を求める。
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from scipy.optimize import minimize
# データ生成
np.random.seed(seed=1)
N = 200
K = 3
T = np.zeros((N, 3))
X = np.zeros((N, 2))
X_range0 = [-3, 3]
X_range1 = [-3, 3]
Mu = np.array([[-.5, -.5], [.5, 1.0], [1, -.5]])
Sig = np.array([[.7, .7], [.8, .3], [.3, .8]])
Pi = np.array([0.4, 0.8, 1])
for n in range(N):
wk = np.random.rand()
for k in range(K):
if wk < Pi[k]:
T[n, k] = 1
break
for k in range(2):
X[n, k] = (np.random.randn() * Sig[T[n, :] == 1, k] + Mu[T[n, :] == 1, k])
# 2分類のデータをテスト・訓練データに分割
TestRatio = 0.5
X_n_training = int(N * TestRatio)
X_train = X[:X_n_training, :]
X_test = X[X_n_training:, :]
T_train = T[:X_n_training, :]
T_test = T[X_n_training:, :]
# データを'class_data.npz'に保存
np.savez('class_data.npz', X_train=X_train, T_train=T_train, X_test=X_test, T_test=T_test, X_range0=X_range0, X_range1=X_range1)
# データの図示
def show_data(x, t):
wk, n = t.shape
c = [[0, 0, 0], [.5, .5, .5], [1, 1, 1]]
for i in range(n):
plt.plot(x[t[:, i] == 1, 0], x[t[:, i] == 1, 1], linestyle='none', marker='o', markeredgecolor='black', color=c[i], alpha=0.8)
plt.grid(True)
# シグモイド関数
def sigmoid(x):
y = 1 / (1 + np.exp(-x))
return y
# ネットワーク
def FNN(wv, M, K, x):
N, D = x.shape
w = wv[:M * (D + 1)]
w = w.reshape(M, (D + 1))
v = wv[M * (D + 1):]
v = v.reshape((K, M + 1))
b = np.zeros((N, M + 1))
z = np.zeros((N, M + 1))
a = np.zeros((N, K))
y = np.zeros((N, K))
for n in range(N):
for m in range(M):
b[n, m] = np.dot(w[m, :], np.r_[x[n, :], 1])
z[n, m] = sigmoid(b[n, m])
z[n, M] = 1
wkz = 0
for k in range(K):
a[n, k] = np.dot(v[k, :], z[n, :])
wkz = wkz + np.exp(a[n, k])
for k in range(K):
y[n, k] = np.exp(a[n, k]) / wkz
return y, a, z, b
wV = np.ones(15)
M = 2
K = 3
print(FNN(wV, M, K, X_train[:2, :]))
(array([[0.33333333, 0.33333333, 0.33333333],
[0.33333333, 0.33333333, 0.33333333]]),
array([[2.6971835 , 2.6971835 , 2.6971835 ],
[1.49172649, 1.49172649, 1.49172649]]),
array([[0.84859175, 0.84859175, 1. ],
[0.24586324, 0.24586324, 1. ]]),
array([[ 1.72359839, 1.72359839, 0. ],
[-1.12079826, -1.12079826, 0. ]]))
数値微分法
2層フィードフォワードニューラルネットワークに3分類問題を解かせる。
分類問題の誤差関数は交差エントロピー誤差を使う。
E(w, v) = - ^frac{1}{N} \sum_{n=0}^{N-1} \sum_{k=0}^{K-1} t_{nk} \log (y_{nk})
勾配法を使うには誤差関数を各パラメータで偏微分した式が必要になる。
しかし、微分した値は式を偏微分しなくても求めることができる。
求めたいw*地点の勾配は
\frac{δE}{δw}|_{w^{*}} \simeq \frac{E(w^{*} + \epsilon) - E(w^{*} - \epsilon)}{2 \epsilon}
のように求められる。
実際、パラメータは1つだけではなく、複数個あるので、w0、w1、w2とあった場合に、w0*、w1*、w2*という点において
\frac{δE}{δw_{0}}|_{w_{0}^{*}, w_{1}^{*}, w_{2}^{*}} \simeq \frac{E(w_{0}^{*} + \epsilon w_{1}^{*} w_{2}^{*}) - E(w_{0}^{*} - \epsilon w_{1}^{*} w_{2}^{*})}{2 \epsilon}
w1*、w2*を固定した値として求めていく。
誤差関数をcee_fnn, その微分をdcee_fnn_numとする。
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from scipy.optimize import minimize
# データ生成
np.random.seed(seed=1)
N = 200
K = 3
T = np.zeros((N, 3))
X = np.zeros((N, 2))
X_range0 = [-3, 3]
X_range1 = [-3, 3]
Mu = np.array([[-.5, -.5], [.5, 1.0], [1, -.5]])
Sig = np.array([[.7, .7], [.8, .3], [.3, .8]])
Pi = np.array([0.4, 0.8, 1])
for n in range(N):
wk = np.random.rand()
for k in range(K):
if wk < Pi[k]:
T[n, k] = 1
break
for k in range(2):
X[n, k] = (np.random.randn() * Sig[T[n, :] == 1, k] + Mu[T[n, :] == 1, k])
# 2分類のデータをテスト・訓練データに分割
TestRatio = 0.5
X_n_training = int(N * TestRatio)
X_train = X[:X_n_training, :]
X_test = X[X_n_training:, :]
T_train = T[:X_n_training, :]
T_test = T[X_n_training:, :]
# データを'class_data.npz'に保存
#np.savez('class_data.npz', X_train=X_train, T_train=T_train, X_test=X_test, T_test=T_test, X_range0=X_range0, X_range1=X_range1)
# データの図示
def show_data(x, t):
wk, n = t.shape
c = [[0, 0, 0], [.5, .5, .5], [1, 1, 1]]
for i in range(n):
plt.plot(x[t[:, i] == 1, 0], x[t[:, i] == 1, 1], linestyle='none', marker='o', markeredgecolor='black', color=c[i], alpha=0.8)
plt.grid(True)
# シグモイド関数
def sigmoid(x):
y = 1 / (1 + np.exp(-x))
return y
# ネットワーク
def fnn(wv, M, K, x):
N, D = x.shape
w = wv[:M * (D + 1)]
w = w.reshape(M, (D + 1))
v = wv[M * (D + 1):]
v = v.reshape((K, M + 1))
b = np.zeros((N, M + 1))
z = np.zeros((N, M + 1))
a = np.zeros((N, K))
y = np.zeros((N, K))
for n in range(N):
for m in range(M):
b[n, m] = np.dot(w[m, :], np.r_[x[n, :], 1])
z[n, m] = sigmoid(b[n, m])
z[n, M] = 1
wkz = 0
for k in range(K):
a[n, k] = np.dot(v[k, :], z[n, :])
wkz = wkz + np.exp(a[n, k])
for k in range(K):
y[n, k] = np.exp(a[n, k]) / wkz
return y, a, z, b
def ce_fnn(wv, M, K, x, t):
N, D = x.shape
y, a, z, b = fnn(wv, M, K, x)
ce = -np.dot(np.log(y.reshape(-1)), t.reshape(-1)) / N
return ce
def dce_fnn_num(wv, M, K, x, t):
epsilon = 0.001
dwv = np.zeros_like(wv)
for iwv in range(len(wv)):
wv_modified = wv.copy()
wv_modified[iwv] = wv[iwv] - epsilon
mse1 = ce_fnn(wv_modified, M, K, x, t)
wv_modified[iwv] = wv[iwv] + epsilon
mse2 = ce_fnn(wv_modified, M, K, x, t)
dwv[iwv] = (mse2 - mse1) / (2 * epsilon)
return dwv
def show_wv(wv, M):
N = wv.shape[0]
plt.bar(range(1, M * 3 + 1), wv[:M * 3], align="center", color='black')
plt.bar(range(M * 3 + 1, N + 1), wv[M * 3:], align="center", color='cornflowerblue')
plt.xticks(range(1, N + 1))
plt.xlim(0, N + 1)
M = 2
K = 3
nWV = M * 3 + K * (M + 1)
np.random.seed(1)
WV = np.random.normal(0, 1, nWV)
dWV = dce_fnn_num(WV, M, K, X_train[:2, :], T_train[:2, :])
print(dWV)
plt.figure(1, figsize=(5, 3))
show_wv(dWV, M)
plt.show()
epsilon = 0.001として、重みをランダムに生成。2データ分だけ入力し、15個の重みパラメータそれぞれに対して数値偏微分した値をグラフにした。
数値微分法を使った勾配法
数値微分法した式を使って、勾配法を適用し、分類問題を解いていく。
入力でこれまでと異なる箇所は、まず学習させる重みの初期値として入れ、訓練データだけでなく、テストデータも入力する。
学習ステップごとにテストデータでの誤差をチェックし、オーバーフィッティングが起きないか確かめる。
ただし、テストデータ情報は、パラメータの学習に使わない。
学習ステップを1000stepに設定するが、実行には2分ほど時間がかかる。
誤差関数の時間発展
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from scipy.optimize import minimize
import time
# データ生成
np.random.seed(seed=1)
N = 200
K = 3
T = np.zeros((N, 3))
X = np.zeros((N, 2))
X_range0 = [-3, 3]
X_range1 = [-3, 3]
Mu = np.array([[-.5, -.5], [.5, 1.0], [1, -.5]])
Sig = np.array([[.7, .7], [.8, .3], [.3, .8]])
Pi = np.array([0.4, 0.8, 1])
for n in range(N):
wk = np.random.rand()
for k in range(K):
if wk < Pi[k]:
T[n, k] = 1
break
for k in range(2):
X[n, k] = (np.random.randn() * Sig[T[n, :] == 1, k] + Mu[T[n, :] == 1, k])
# 2分類のデータをテスト・訓練データに分割
TestRatio = 0.5
X_n_training = int(N * TestRatio)
X_train = X[:X_n_training, :]
X_test = X[X_n_training:, :]
T_train = T[:X_n_training, :]
T_test = T[X_n_training:, :]
# データを'class_data.npz'に保存
#np.savez('class_data.npz', X_train=X_train, T_train=T_train, X_test=X_test, T_test=T_test, X_range0=X_range0, X_range1=X_range1)
# データの図示
def show_data(x, t):
wk, n = t.shape
c = [[0, 0, 0], [.5, .5, .5], [1, 1, 1]]
for i in range(n):
plt.plot(x[t[:, i] == 1, 0], x[t[:, i] == 1, 1], linestyle='none', marker='o', markeredgecolor='black', color=c[i], alpha=0.8)
plt.grid(True)
# シグモイド関数
def sigmoid(x):
y = 1 / (1 + np.exp(-x))
return y
# ネットワーク
def fnn(wv, M, K, x):
N, D = x.shape
w = wv[:M * (D + 1)]
w = w.reshape(M, (D + 1))
v = wv[M * (D + 1):]
v = v.reshape((K, M + 1))
b = np.zeros((N, M + 1))
z = np.zeros((N, M + 1))
a = np.zeros((N, K))
y = np.zeros((N, K))
for n in range(N):
for m in range(M):
b[n, m] = np.dot(w[m, :], np.r_[x[n, :], 1])
z[n, m] = sigmoid(b[n, m])
z[n, M] = 1
wkz = 0
for k in range(K):
a[n, k] = np.dot(v[k, :], z[n, :])
wkz = wkz + np.exp(a[n, k])
for k in range(K):
y[n, k] = np.exp(a[n, k]) / wkz
return y, a, z, b
def ce_fnn(wv, M, K, x, t):
N, D = x.shape
y, a, z, b = fnn(wv, M, K, x)
ce = -np.dot(np.log(y.reshape(-1)), t.reshape(-1)) / N
return ce
def dce_fnn_num(wv, M, K, x, t):
epsilon = 0.001
dwv = np.zeros_like(wv)
for iwv in range(len(wv)):
wv_modified = wv.copy()
wv_modified[iwv] = wv[iwv] - epsilon
mse1 = ce_fnn(wv_modified, M, K, x, t)
wv_modified[iwv] = wv[iwv] + epsilon
mse2 = ce_fnn(wv_modified, M, K, x, t)
dwv[iwv] = (mse2 - mse1) / (2 * epsilon)
return dwv
def show_wv(wv, M):
N = wv.shape[0]
plt.bar(range(1, M * 3 + 1), wv[:M * 3], align="center", color='black')
plt.bar(range(M * 3 + 1, N + 1), wv[M * 3:], align="center", color='cornflowerblue')
plt.xticks(range(1, N + 1))
plt.xlim(0, N + 1)
def fit_fnn_num(wv_init, M, K, x_train, t_train, x_test, t_test, n, alpha):
wvt = wv_init
err_train = np.zeros(n)
err_test = np.zeros(n)
wv_hist = np.zeros((n, len(wv_init)))
for i in range(n):
wvt = wvt - alpha * dce_fnn_num(wvt, M, K, x_train, t_train)
err_train[i] = ce_fnn(wvt, M, K, x_train, t_train)
err_test[i] = ce_fnn(wvt, M, K, x_test, t_test)
wv_hist[i, :] = wvt
return wvt, wv_hist, err_train, err_test
startTime = time.time()
M = 2
K = 3
np.random.seed(1)
WV_init = np.random.normal(0, 0.01, M * 3 + K * (M + 1))
N_step = 1000
alpha = 0.5
WV, WV_hist, Err_train, Err_test = fit_fnn_num(WV_init, M, K, X_train, T_train, X_test, T_test, N_step, alpha)
calculation_time = time.time() - startTime
print("Calculation time:{0:.3f} sec".format(calculation_time))
# 学習誤差の表示
plt.figure(1, figsize=(3, 3))
plt.plot(Err_train, 'black', label='training')
plt.plot(Err_test, 'cornflowerblue', label='test')
plt.legend()
plt.show()
学習プログラムがうまく働いていると、訓練データの誤差が単調に減少し、一定の値で収束する。
学習に使っていないテストデータの誤差も、途中で上がってしまうことなく単調に下がっていれば、オーバーフィッティングが発生していないと解釈できる。
400ステップ付近で急激に学習が収束しているように見えるが、そこから学習が進んでいる。
重みの時間発展
# 学習誤差の表示
plt.figure(1, figsize=(3, 3))
plt.plot(WV_hist[:, :M * 3], 'black', label='training')
plt.plot(WV_hist[:, M * 3:], 'cornflowerblue', label='test')
plt.legend()
plt.show()
重みwを黒、vを青で示した。
0周辺の初期値で始まった重みは、それぞれが何かしらの値に収束しようとしている。
400ステップ付近でそれぞれの重みのグラフが交差しているが、これは重みを更新する方向、誤差関数の勾配の方向が変化したことを意味する。
これを重みが**鞍点(サドルポイント)**と呼ばれる地点の近くを通過したためである。
鞍点はある方向からは谷、別の方向からは山になっている地点である。
ニューラルネットワークによって作られる誤差関数の地形は複雑であり、非線形性の強いニューラルネットワークの場合は上記の図のように学習がいったん収束した後に学習を続けたら一気に学習が進むことがよくある。
上記の図だけでは3クラス分類をしたイメージがないため、データ空間に対して境界線を表示する。
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from scipy.optimize import minimize
import time
# データ生成
np.random.seed(seed=1)
N = 200
K = 3
T = np.zeros((N, 3))
X = np.zeros((N, 2))
X_range0 = [-3, 3]
X_range1 = [-3, 3]
Mu = np.array([[-.5, -.5], [.5, 1.0], [1, -.5]])
Sig = np.array([[.7, .7], [.8, .3], [.3, .8]])
Pi = np.array([0.4, 0.8, 1])
for n in range(N):
wk = np.random.rand()
for k in range(K):
if wk < Pi[k]:
T[n, k] = 1
break
for k in range(2):
X[n, k] = (np.random.randn() * Sig[T[n, :] == 1, k] + Mu[T[n, :] == 1, k])
# 2分類のデータをテスト・訓練データに分割
TestRatio = 0.5
X_n_training = int(N * TestRatio)
X_train = X[:X_n_training, :]
X_test = X[X_n_training:, :]
T_train = T[:X_n_training, :]
T_test = T[X_n_training:, :]
# データを'class_data.npz'に保存
#np.savez('class_data.npz', X_train=X_train, T_train=T_train, X_test=X_test, T_test=T_test, X_range0=X_range0, X_range1=X_range1)
# データの図示
def show_data(x, t):
wk, n = t.shape
c = [[0, 0, 0], [.5, .5, .5], [1, 1, 1]]
for i in range(n):
plt.plot(x[t[:, i] == 1, 0], x[t[:, i] == 1, 1], linestyle='none', marker='o', markeredgecolor='black', color=c[i], alpha=0.8)
plt.grid(True)
# シグモイド関数
def sigmoid(x):
y = 1 / (1 + np.exp(-x))
return y
# ネットワーク
def fnn(wv, M, K, x):
N, D = x.shape
w = wv[:M * (D + 1)]
w = w.reshape(M, (D + 1))
v = wv[M * (D + 1):]
v = v.reshape((K, M + 1))
b = np.zeros((N, M + 1))
z = np.zeros((N, M + 1))
a = np.zeros((N, K))
y = np.zeros((N, K))
for n in range(N):
for m in range(M):
b[n, m] = np.dot(w[m, :], np.r_[x[n, :], 1])
z[n, m] = sigmoid(b[n, m])
z[n, M] = 1
wkz = 0
for k in range(K):
a[n, k] = np.dot(v[k, :], z[n, :])
wkz = wkz + np.exp(a[n, k])
for k in range(K):
y[n, k] = np.exp(a[n, k]) / wkz
return y, a, z, b
def ce_fnn(wv, M, K, x, t):
N, D = x.shape
y, a, z, b = fnn(wv, M, K, x)
ce = -np.dot(np.log(y.reshape(-1)), t.reshape(-1)) / N
return ce
def dce_fnn_num(wv, M, K, x, t):
epsilon = 0.001
dwv = np.zeros_like(wv)
for iwv in range(len(wv)):
wv_modified = wv.copy()
wv_modified[iwv] = wv[iwv] - epsilon
mse1 = ce_fnn(wv_modified, M, K, x, t)
wv_modified[iwv] = wv[iwv] + epsilon
mse2 = ce_fnn(wv_modified, M, K, x, t)
dwv[iwv] = (mse2 - mse1) / (2 * epsilon)
return dwv
def show_wv(wv, M):
N = wv.shape[0]
plt.bar(range(1, M * 3 + 1), wv[:M * 3], align="center", color='black')
plt.bar(range(M * 3 + 1, N + 1), wv[M * 3:], align="center", color='cornflowerblue')
plt.xticks(range(1, N + 1))
plt.xlim(0, N + 1)
def fit_fnn_num(wv_init, M, K, x_train, t_train, x_test, t_test, n, alpha):
wvt = wv_init
err_train = np.zeros(n)
err_test = np.zeros(n)
wv_hist = np.zeros((n, len(wv_init)))
for i in range(n):
wvt = wvt - alpha * dce_fnn_num(wvt, M, K, x_train, t_train)
err_train[i] = ce_fnn(wvt, M, K, x_train, t_train)
err_test[i] = ce_fnn(wvt, M, K, x_test, t_test)
wv_hist[i, :] = wvt
return wvt, wv_hist, err_train, err_test
startTime = time.time()
M = 2
K = 3
np.random.seed(1)
WV_init = np.random.normal(0, 0.01, M * 3 + K * (M + 1))
N_step = 1000
alpha = 0.5
WV, WV_hist, Err_train, Err_test = fit_fnn_num(WV_init, M, K, X_train, T_train, X_test, T_test, N_step, alpha)
calculation_time = time.time() - startTime
print("Calculation time:{0:.3f} sec".format(calculation_time))
def show_fnn(wv, M, K):
xn = 60
x0 = np.linspace(X_range0[0], X_range0[1], xn)
x1 = np.linspace(X_range1[0], X_range1[1], xn)
xx0, xx1 = np.meshgrid(x0, x1)
x = np.c_[np.reshape(xx0, xn * xn), np.reshape(xx1, xn * xn)]
y, a, z, b = fnn(wv, M, K, x)
plt.figure(1, figsize=(4, 4))
for ic in range(K):
f = y[:, ic]
f = f.reshape(xn, xn)
f = f.T
cont = plt.contour(xx0, xx1, f, levels=[0.8, 0.9], colors=['cornflowerblue', 'black'])
cont.clabel(fmt='%1.1f', fontsize=9)
plt.xlim(X_range0)
plt.ylim(X_range1)
# 境界線の表示
plt.figure(1, figsize=(3, 3))
show_data(X_test, T_test)
show_fnn(WV, M, K)
plt.show()