0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

ディープラーニング講座「深層学習:Day1」要点まとめ&実装演習

Last updated at Posted at 2020-12-13

私は、2020年7月に「G検定(2020 #2)」に合格した。
次は、2021年2月実施の「E資格(2021 #1)」受験資格である__JDLA認定プログラム「3カ月で現場で潰しが効くディープラーニング講座」__に2020年8月から挑戦中。

本記事では、__JDLA認定プログラム「3カ月で現場で潰しが効くディープラーニング講座」の課題であり、「深層学習:Day1」__実装演習結果をまとめる。

1.「深層学習:Day1」講義動画の要点まとめ

ディープラーニングは何をしようとしているのか?
明示的なプログラムの代わりに多数の中間層を持つニューラルネットワークを用いて、
入力値から目的とする出力値に変換する数学モデルを構築すること

ニューラルネットワークの全体像
・入力層~中間層~出力層の3パートに分かれる
・重み$w$とバイアス$b$を自力で学習し、最適化することが目的

ニューラルネットワークが解決できる問題
・回帰:連続的な数字を予測する 例:売上予想、売価
・分類:離散的な結果を予想する 例:性別、動物の種類

Section1)入力層~中間層

deep1-01.jpg

複数の入力$Xi$、重み$Wi$、バイアス$b$により、中間層の総入力$u$が導き出される。

W=
\left(
\begin{array}{cc}
w_1 \\ 
\vdots \\
w_i \\
\end{array}
\right),\;
X=
\left(
\begin{array}{cc}
x_1 \\ 
\vdots \\
x_i \\
\end{array}
\right)\\
\;\\
u=w_1 x_1+w_2 x_2+w_3 x_3+w_4 x_4 +b\\
=WX+b

中間層を複数重ねることで、より深く学習ができるニューラルネットワークを作ることができる。図は、入力層から1つ目の中間層への図となっており、総入力$u$から活性化関数$f$により出力$z$を導き出し、その$z$が次の中間層の入力となる。

Section2)活性化関数

活性化関数とは、次の層への出力の大きさを決める非線形の関数。入力値の値によって、次の層への信号のON/OFFや強弱を定める働きをもつ。

  • 非線形な関数は加法性を満たさない

      加法性:$f(x+y)=f(x)+f(y)$
  • 非線形な関数は斉次性を満たさない

      斉次性:$f(kx)=kf(x)$
  • 活性化関数$f$の種類

    ・中間層用:ReLU関数、シグモイド(ロジスティック)関数、ステップ関数

    ・出力層用:ソフトマックス関数、恒等写像、シグモイド(ロジスティック)関数
  • 活性化関数の効果で一部の出力は弱く、一部は強く伝播される

Section3)出力層

deep1-02.jpg

出力層の役割とは、ほしいデータをズバリ出すこと。
  分類:各クラスの確率

  • 誤差関数:

      入力データ⇒ニューラルネットワーク⇒出力結果

       出力結果と訓練データ(正解値)を比較し、どれくらい合っていたかを誤差関数で表現する
        例:二乗和誤差関数

        例:分類問題:クロスエントロピー誤差(cross_entropy_error)、

          回帰問題:平均二乗差誤差(mean_squared_error)
\begin{align}
誤差&関数\\
&E_n(W)=\frac{1}{2}\sum_{j=1}^{J} (y_j-d_j)^2= \frac{1}{2}||(y-d)||^2
\end{align}

# 誤差(主に回帰問題の際に利用される)
loss = functions.mean_squared_error(d, y)
  • 出力層の中間層との違い

      【値の強弱】

        ・中間層:しきい値の前後で信号の強弱を調整

        ・出力層:信号の大きさ(比率)はそのままに変換

      【確率出力】

       ・分類問題の場合、出力層の出力は0~1の範囲に限定し、総和を1とする必要がある
  • 活性化関数 回帰 二値分類 多クラス分類

       ・恒等写像

       ・シグモイド関数

       ・ソフトマックス関数:3クラス以上の分類の際に全てを足したら1になるように変換

       ・誤差関数

       ・平均二乗誤差

       ・交差エントロピー

    deep1-03.jpg

Section4)勾配降下法

  • 勾配降下法はニューラルネットワークを学習させる方法
  • 勾配降下法は3種類ある
  • 勾配降下法
  • 確率的勾配降下法
  • ミニバッチ勾配降下法 
  • 深層学習の目的:学習を通して誤差を最小にするネットワークを作成すること

     →誤差E(w)を最小化するパラメータw,bを発見すること
  • 勾配降下法:

w^{(t+1)}=w^{(t)}-\epsilon \nabla E \epsilon :学習率\\
\nabla E=\frac{ \partial E }{\partial w } = \biggl[ \frac{ \partial E }{\partial w_1 } \cdots \frac{ \partial E }{\partial w_M }  \biggr]
  • 学習率εを適切に設定することで効率的に学習できる

     学習率εが大きすぎた場合、最小値にたどり着かず発散してしまう

     学習率εが小さすぎた場合、発散することはないが、収束するまでに時間がかかる

     また途中にある少し小さな値(極小値)に誤収束してしまう

  • 勾配降下法の学習率の決定、収束性向上のためのアルゴリズム

  • Momentum

  • AdaGrad

  • Adadelta

  • Adam(よく使われる)

  • 入力→NN⇒出力→訓練データと比較:誤差関数からw,bを更新⇒次の周(エポック)に反映

  • 確率的勾配降下法(SGD)

  • 学習全データからランダムに抽出したサンプルの誤差

       (⇔勾配降下法:全サンプルの平均誤差)

  • メリット

       ・リアルタイムデータでオンライン学習ができる

       ・望まない局所極小解に収束するリスク軽減

       ・データが冗長な場合の計算コストの軽減

  • 確率的勾配降下法:


w^{(t+1)}=w^{(t)}-\epsilon \nabla E_n \epsilon :学習率\\
  • オンライン学習

      学習データが入ってくるたびに都度パラメータ(w,b)を更新し学習を進めていく方法

      (⇔バッチ学習)

  • バッチ学習

      一度にすべての学習データを使ってパラメータ更新を行う方法(⇔オンライン学習)

      バッチ学習は全データの前処理をするには大量なメモリが必要

      都度学習ができるオンライン学習が有効的

  • ミニバッチ勾配降下法(オンライン学習)

  • ランダムに分割したデータの集合(ミニバッチ)$D_t$に属するサンプルの平均誤差

       (⇔確率的勾配降下法:ランダムに抽出したサンプルの誤差)

  • 例:10万枚を500枚ずつに小分け(ミニバッチ)して学習させていく。メモリへの負荷も少なく効率的な学習法

  • メリット

       ・確率的勾配降下法のメリットを損なわず、計算機の計算資源を有効利用できる

        →CPUを利用したスレッド並列化やGPUを利用したSIMD並列化

         500枚ずつを並行して計算・学習できる=SIMD(Single Instruction Multi Data)

  • ミニバッチ勾配降下法:


\begin{align}
&w^{(t+1)}=w^{(t)}-\epsilon \nabla E_t \epsilon :学習率\\
&E_t=\frac{ 1 }{N_t } \sum_{n \in D_t} E_n \\
&N_t=|D_t|
\end{align}

Section5)誤差逆伝播法

  • 誤差勾配の計算方法

  • 数値微分:プログラムで微小な数値を生成し疑似的に微分を計算する一般的な手法

           デメリット:計算量が多い

  • 誤差逆伝播法:算出された誤差を、出力層側から順に微分し、前の層前の層へと伝播。

           最小限の計算で各パラメータでの微分値を解析的に計算する手法。

           微分の連鎖律を用いて計算結果(=誤差)から微分を逆算することで、

           不要な再帰的計算を避けて微分を算出できる。

2.「深層学習:Day1」確認テスト考察

★確認テスト1

ディープラーニングは、結局何をやろうとしているか2行以内で述べよ。
また、次の中のどの値の最適化が最終目的か。全て選べ。
①入力値$[X]$ ②出力値$[Y]$ ③重み$[W]$ ④バイアス$[b]$
⑤総入力$[u]$ ⑥中間層入力$[z]$ ⑦学習率$[ρ]$

解答
  • ディープラーニングとは、明示的なプログラムを利用せず、中間層を持つニューラルネットワークを用いて入力値から目的とする出力値に変換する数学モデルを構築すること。

  • 最適化の最終目的

    • ③重み$[W]$
    • ④バイアス$[b]$

★確認テスト2

次のネットワークを紙にかけ。
 入力層:2ノード1層
 中間層:3ノード2層
 出力層:1ノード1層

解答
![kakunin_test2.jpg](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/691536/a11024bd-c0de-fa46-dc9d-91b7e244bbde.jpeg)

★確認テスト3

以下の図に動物分類の実例を入れてみよう。
kakunin_test3q.jpg

解答
![kakunin_test3a.jpg](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/691536/9e1c9462-21fb-4286-03ee-5e5b2fba341e.jpeg)

★確認テスト4

この数式をPythonで書け。
kakunin_test4q.jpg

解答

# 1層の総入力
    u1 = np.dot(x, W1) + b1

★確認テスト5

1-1_forward_propagation.ipynb から中間層の出力を定義しているソースを抜き出せ。
kakunin_test5q2.jpg

解答

# 2層の総出力
z2 = functions.relu(u2)

★確認テスト6

活性化関数は、ニューラルネットワークにおいて、次の層への出力の大きさを決める非線形の関数。
入力値の値によって、次の値への信号のON/OFFや強弱を定める働きを持つ。
線形と非線形の違いを図に書いて簡易に説明せよ。

解答

kakunin_test6a.jpg


★確認テスト7

1-1_forward_propagation.ipynb から該当する箇所を抜き出せ。
kakunin_test7q.jpg

解答
# ReLU関数
def relu(x):
    return np.maximum(0, x)

# 2層の総出力
z2 = functions.relu(u2)

★確認テスト8

  • 誤差関数の式がなぜ、引き算ではなく、二乗するか述べよ。
  • 1/2はどういう意味を持つか述べよ。
\begin{align}
誤差&関数\\
&E_n(W)=\frac{1}{2}\sum_{j=1}^{J} (y_j-d_j)^2= \frac{1}{2}||(y-d)||^2
\end{align}
解答
  • 二乗する理由
      各ラベルでの誤差に正負の値が発生し、全体の誤差を正しく表せないため、2乗してラベルの誤差を正の値になるようにしている。

  • 1/2する理由
      ネットワーク学習をする際に行う誤差逆伝播の計算で、誤差関数の微分を用いるが、2乗関数の微分で1/2により係数が打ち消しあうなど、計算式を簡単にするため。


★確認テスト9

下図①~③の数式に該当するソースコードを示し、一行ずつ処理の説明をせよ。
kakunin_test9q.jpg

# 出力層の活性化関数
# ソフトマックス関数
def softmax(x):
    if x.ndim == 2:
        x = x.T
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T

    x = x - np.max(x) # オーバーフロー対策
    return np.exp(x) / np.sum(np.exp(x))
解答

kakunin_test9a.jpg


★確認テスト10

下図①~②の数式に該当するソースコードを示し、一行ずつ処理の説明をせよ。
kakunin_test10q.jpg

# クロスエントロピー
def cross_entropy_error(d, y):
    if y.ndim == 1:
        d = d.reshape(1, d.size)
        y = y.reshape(1, y.size)
        
    # 教師データがone-hot-vectorの場合、正解ラベルのインデックスに変換
    if d.size == y.size:
        d = d.argmax(axis=1)
             
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), d] + 1e-7)) / batch_size
解答

kakunin_test10a.jpg


★確認テスト11

1_3_stochastic_gradient_descent.ipynb から勾配降下法の記載に該当する箇所を抜き出せ。

w^{(t+1)}=w^{(t)}-\epsilon \nabla E \epsilon :学習率\\
解答

kakunin_test11a.jpg


★確認テスト12

オンライン学習とは何か。2行でまとめよ。

解答

オンライン学習とは、学習データが入ってくるたびに都度パラメータ(w,b)を更新し学習を進めていく方法(⇔バッチ学習)

<参考>バッチ学習
  一度にすべての学習データを使ってパラメータ更新を行う方法
  バッチ学習は全データの前処理をするには大量なメモリが必要
  都度学習ができるオンライン学習が有効的


★確認テスト13

以下、ミニバッチ勾配学習法の数式の意味を図に書いて説明せよ。


\begin{align}
&w^{(t+1)}=w^{(t)}-\epsilon \nabla E_t \epsilon :学習率\\
\end{align}
解答

kakunin_test13a.jpg


★確認テスト14

誤差逆伝播法では不要な再帰的処理を避けることが出来る。
1_3_stochastic_gradient_descent.ipynb から既に行った計算結果を保持しているソースコードを抽出せよ。

解答

kakunin_test14a2.jpg


★確認テスト15

1_3_stochastic_gradient_descent.ipynb から以下の2つの空欄に該当するソースコードを探せ。
kakunin_test15q.jpg

解答

kakunin_test15a.jpg


3.「深層学習:Day1」実装演習結果と考察

3-1.順伝播・逆伝播

1_2_back_propagation.ipynbの順伝播・逆伝播ニューラルネットワークを実装する。

3-1-1. importと関数定義

importと関数の定義を実施する。

使用するライブラリは__numpy__と__matplotlib__。
また、定義したのは、指定する変数をprint文にて出力する関数。

import numpy as np
from common import functions
import matplotlib.pyplot as plt

def print_vec(text, vec):
    print("*** " + text + " ***")
    print(vec)
    #print("shape: " + str(x.shape))
    print("")

続いて、重み__W__、バイアス__b__の初期値を設定する関数init_network()の定義。


# ウェイトとバイアスを設定
# ネートワークを作成
def init_network():
    print("##### ネットワークの初期化 #####")

    network = {}
    network['W1'] = np.array([
        [0.1, 0.3, 0.5],
        [0.2, 0.4, 0.6]
    ])

    network['W2'] = np.array([
        [0.1, 0.4],
        [0.2, 0.5],
        [0.3, 0.6]
    ])

    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['b2'] = np.array([0.1, 0.2])
    
    print_vec("重み1", network['W1'])
    print_vec("重み2", network['W2'])
    print_vec("バイアス1", network['b1'])
    print_vec("バイアス2", network['b2'])

    return network

次は、順伝播のforward()関数の定義。
入力層、中間層1層、出力層への重み__w1,w2__、バイアス__b1,b2__、中間層、出力層への入力を__u1,u2__、中間層、出力層の出力を__z1,y__とし、順伝播のネットワークを定義している。
また、活性化関数は、中間層出力に__シグモイド関数__、出力層の出力には、__ソフトマックス関数__を指定。


# 順伝播
def forward(network, x):
    print("##### 順伝播開始 #####")

    W1, W2 = network['W1'], network['W2']
    b1, b2 = network['b1'], network['b2']
    
    u1 = np.dot(x, W1) + b1
    z1 = functions.sigmoid(u1)
    u2 = np.dot(z1, W2) + b2
    y = functions.softmax(u2)
    
    print_vec("総入力1", u1)
    print_vec("中間層出力1", z1)
    print_vec("総入力2", u2)
    print_vec("出力1", y)
    print("出力合計: " + str(np.sum(y)))

    return y, z1

最後に、逆伝播のbackward()関数の定義。
連鎖律を活用し、各層の偏微分を計算、gradに代入している。


# 誤差逆伝播
def backward(x, d, z1, y):
    print("\n##### 誤差逆伝播開始 #####")

    grad = {}

    W1, W2 = network['W1'], network['W2']
    b1, b2 = network['b1'], network['b2']
    #  出力層でのデルタ
    delta2 = functions.d_softmax_with_loss(d, y)
    #  b2の勾配
    grad['b2'] = np.sum(delta2, axis=0)
    #  W2の勾配
    grad['W2'] = np.dot(z1.T, delta2)
    #  中間層でのデルタ
    delta1 = np.dot(delta2, W2.T) * functions.d_sigmoid(z1)
    # b1の勾配
    grad['b1'] = np.sum(delta1, axis=0)
    #  W1の勾配
    grad['W1'] = np.dot(x.T, delta1)
        
    print_vec("偏微分_dE/du2", delta2)
    print_vec("偏微分_dE/du1", delta1)

    print_vec("偏微分_重み1", grad["W1"])
    print_vec("偏微分_重み2", grad["W2"])
    print_vec("偏微分_バイアス1", grad["b1"])
    print_vec("偏微分_バイアス2", grad["b2"])

    return grad

3-1-2. 学習開始

初期値設定や順伝播、逆伝播のプログラムを見てわかるように、このネットワークは、以下のようなノード数、層数となっている。

  • 入力層:2ノード1層
  • 中間層:3ノード1層
  • 出力層:2ノード1層

また、出力層のノード数は2、誤差は__交差エントロピー__で示すように2クラス分類の学習である。そのため、出力層での活性化関数は__ソフトマックス関数__を使っている。


# 訓練データ
x = np.array([[1.0, 5.0]])
# 目標出力
d = np.array([[0, 1]])
# 学習率
learning_rate = 0.01

# ネットワーク初期化
network =  init_network()

# 順伝播
y, z1 = forward(network, x)

# 誤差
loss = functions.cross_entropy_error(d, y)

# 誤差逆伝播
grad = backward(x, d, z1, y)

for key in ('W1', 'W2', 'b1', 'b2'):
    network[key]  -= learning_rate * grad[key]

print("##### 結果表示 #####")    
print("loss =",loss,"\n")

print("##### 更新後パラメータ #####") 
print_vec("重み1", network['W1'])
print_vec("重み2", network['W2'])
print_vec("バイアス1", network['b1'])
print_vec("バイアス2", network['b2'])

訓練データや目標出力(期待値)を決め、順伝播、誤差逆伝播の学習を行い、結果を表示する。
deep1-05.jpg

順伝播後出力__$y$は[0.29,0.71]、誤差$loss$は0.34、重みやバイアスも逆伝播を実施することにより初期よりも変化していることがわかる。目標出力$d$__は[0,1]のため、まだ学習不足。このまま繰り返し100回の学習を実施してみる。

3-1-3. 繰り返し学習


# 繰り返し学習 +100回
loss_np = np.array(loss)
y_np = np.array(y)

for i in range(100):
  y, z1 = forward(network, x)
  loss = functions.cross_entropy_error(d, y)
  loss_np = np.append(loss_np,loss)
  y_np = np.append(y_np,y, axis=0)

  grad = backward(x, d, z1, y)
  for key in ('W1', 'W2', 'b1', 'b2'):
    network[key]  -= learning_rate * grad[key]

print("##### 結果表示 #####")
print("y =",y)
print("loss =",loss,"\n")

print("##### 更新後パラメータ #####") 
print_vec("重み1", network['W1'])
print_vec("重み2", network['W2'])
print_vec("バイアス1", network['b1'])
print_vec("バイアス2", network['b2'])

deep1-06.jpg
deep1-07.jpg

繰り返し学習することで、順伝播後出力が目標出力に、誤差が0に近づき、学習ができていることがわかる。

ちなみに1000回学習するとさらに目標出力や誤差0に近づく結果となった。
deep1-08.jpg
deep1-09.jpg

今回は、学習率を0.01として学習を行っている。10倍の0.1に変更し、100回学習を行うと、学習回数を減らすことが可能。今回は訓練データが1つ、テストデータも無しで行っているため、学習率を大きくすることによる他への影響は無いと言える。
deep1-10.jpg
deep1-11.jpg

3-2.確率勾配降下法

1_3_stochastic_gradient_descent.ipynbの確率勾配降下法ニューラルネットワークを実装する。

3-2-1. importと関数定義

importと関数の定義を実施する。

使用するライブラリは__numpy__と__matplotlib__。
また、定義したのは、指定する変数をprint文にて出力する関数。

import numpy as np
from common import functions
import matplotlib.pyplot as plt

def print_vec(text, vec):
    print("*** " + text + " ***")
    print(vec)
    #print("shape: " + str(x.shape))
    print("")

続いて、今回サンプルとして使用する関数f(x)と、重み__W__、バイアス__b__の初期値を設定する関数init_network()の定義。


# サンプルとする関数
#yの値を予想するAI

def f(x):
    y = 3 * x[0] + 2 * x[1]
    return y

# 初期設定
def init_network():
    print("##### ネットワークの初期化 #####")
    network = {}
    nodesNum = 10
    network['W1'] = np.random.randn(2, nodesNum)
    network['W2'] = np.random.randn(nodesNum)
    network['b1'] = np.random.randn(nodesNum)
    network['b2'] = np.random.randn()

    print_vec("重み1", network['W1'])
    print_vec("重み2", network['W2'])
    print_vec("バイアス1", network['b1'])
    print_vec("バイアス2", network['b2'])

    return network

次は、順伝播のforward()関数の定義。
入力層、中間層1層、出力層への重み__w1,w2__、バイアス__b1,b2__、中間層、出力層への入力を__u1,u2__、中間層、出力層の出力を__z1,y__とし、順伝播のネットワークを定義している。
また、活性化関数は、中間層出力に__ReLU関数__、出力層の出力には、__恒等写像__を指定。


# 順伝播
def forward(network, x):
    # print("##### 順伝播開始 #####")
    
    W1, W2 = network['W1'], network['W2']
    b1, b2 = network['b1'], network['b2']
    u1 = np.dot(x, W1) + b1
    z1 = functions.relu(u1)
    
    u2 = np.dot(z1, W2) + b2
    y = u2 
    
    return z1, y

最後に、逆伝播のbackward()関数の定義。
連鎖律を活用し、各層の偏微分を計算、gradに代入している。


# 誤差逆伝播
def backward(x, d, z1, y):
    # print("\n##### 誤差逆伝播開始 #####")    

    grad = {}
    
    W1, W2 = network['W1'], network['W2']
    b1, b2 = network['b1'], network['b2']

    # 出力層でのデルタ
    delta2 = functions.d_mean_squared_error(d, y)
    # b2の勾配
    grad['b2'] = np.sum(delta2, axis=0)
    # W2の勾配
    grad['W2'] = np.dot(z1.T, delta2)
    # 中間層でのデルタ
    delta1 = np.dot(delta2, W2.T) * functions.d_relu(z1)

    delta1 = delta1[np.newaxis, :]
    # b1の勾配
    grad['b1'] = np.sum(delta1, axis=0)
    x = x[np.newaxis, :]
    # W1の勾配
    grad['W1'] = np.dot(x.T, delta1)

    return grad

3-2-2. 学習開始

初期値設定や順伝播、逆伝播のプログラムを見てわかるように、このネットワークは、以下のようなノード数、層数となっている。

  • 入力層:2ノード1層
  • 中間層:10ノード1層
  • 出力層:1ノード1層

出力層のノード数は2、誤差は__平均二乗誤差__で示すように回帰の学習である。そのため、出力層での活性化関数は__恒等写像__を使っている。

また、確率的勾配降下法の学習のため、サンプル総数からサンプルをランダムに抽出し学習する。

  • サンプル総数data_sets_size:100000
  • 学習サンプルepoch:1000

# サンプルデータを作成
data_sets_size = 100000
data_sets = [0 for i in range(data_sets_size)]

for i in range(data_sets_size):
    data_sets[i] = {}
    # ランダムな値を設定
    data_sets[i]['x'] = np.random.rand(2)
    
    # 目標出力を設定
    data_sets[i]['d'] = f(data_sets[i]['x'])
    
losses = []
# 学習率
learning_rate = 0.07

# 抽出数
epoch = 1000

# パラメータの初期化
network = init_network()

# データのランダム抽出
random_datasets = np.random.choice(data_sets, epoch)

ランダムに抽出したサンプルを順番にfor文で繰り返し学習。各サンプルにおける順伝播、逆伝播学習後の平均二乗誤差をlossesに保管し、グラフ表示確認できるようにしている。


# 勾配降下の繰り返し
for dataset in random_datasets:
    x, d = dataset['x'], dataset['d']
    z1, y = forward(network, x)
    grad = backward(x, d, z1, y)
    # パラメータに勾配適用
    for key in ('W1', 'W2', 'b1', 'b2'):
        network[key]  -= learning_rate * grad[key]

    # 誤差
    loss = functions.mean_squared_error(d, y)
    losses.append(loss)

print("##### 結果表示 #####")    
lists = range(epoch)

plt.plot(lists, losses, '.')
# グラフの表示
plt.show()

print("##### 更新後パラメータ #####") 
print_vec("重み1", network['W1'])
print_vec("重み2", network['W2'])
print_vec("バイアス1", network['b1'])
print_vec("バイアス2", network['b2'])
print("*** 平均二乗誤差 ***\n",loss)

ランダム抽出したサンプル数1000によるlossesの推移は以下のグラフのようになった。そして、更新後のパラメータも合わせて記す。
deep1-13.jpg

グラフから推察すると、サンプル数100程度もlossesはほぼ0となっている。今回は__学習率__ learning_rateを__0.07__で学習している。試しに学習率やサンプル抽出数を変えて見てみよう。

3-2-3. サンプル抽出数・学習率変更による変化

パラメータを変える度にデータが変わるため、正確な変化は見えない点は容赦頂きたい。

まずは、サンプル抽出数変化で見てみる。抽出数epochを30,100,500を追加。

  • epoch = 30
    deep1-14.jpg

  • epoch = 100
    deep1-15.jpg

  • epoch = 500
    deep1-16.jpg

サンプル抽出数を増やす度、学習の繰り返し数が変わるため、抽出数を増やすと最終的な平均二乗誤差が小さくなっていくことが分かった。それ以外の変化は無いことは学習結果で見える形となった。

次に学習率を変えてみる。以下の式より学習率を大きくすると次の重み、バイアスの値が大きく変化するため、学習が早くなりそう。そして小さくするとその逆となる。


# 学習率
learning_rate = 0.07

        network[key]  -= learning_rate * grad[key]

今回サンプルとする関数は、累乗の関数ではないため、途中にある少し小さな値(極小値)に誤収束することは無いと考える。それでは学習率を変化させ学習してみよう。学習率learning_rateを0.01,0.3,0.5を追加。抽出数epochはより変化を見るため200で実施。


# サンプルとする関数
#yの値を予想するAI

def f(x):
    y = 3 * x[0] + 2 * x[1]
    return y
  • learning_rate = 0.01
    deep1-18.jpg

  • learning_rate = 0.07
    deep1-21.jpg

  • learning_rate = 0.3
    deep1-19.jpg

  • learning_rate = 0.5
    deep1-20.jpg

200回学習後の平均二乗誤差が最小だった学習率は__0.07__。前述したように、毎回違うデータでの学習のため、妥当性までは判断し難いが、学習率を大きくしすぎると__過学習__になり、誤差が大きくなってしまっているかもしれないと考察する。

###関連ページ

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?