ニューラルネットワーク全体像
ニューラルネットワークは入力層、中間層、出力層からなる。
確認テスト P.5
ディープラーニングは、結局何をやろうとしているか2行以内で述べよ。また、次の中のどの値の最適化が最終目的か。全て選べ。
回答①) 与えられたデータから特徴量を自ら学習して、学習結果に基づき予測や分類といったタスクを実行する。
回答②)重み[W]やバイアス[b]を最適化する。
確認テスト P.7
次のネットワークを紙にかけ。入力層︓2ノード1層、中間層︓3ノード2層、出力層︓1ノード1層
機械学習で行うタスク
回帰
連続する実数値を取る関数の近似
手法:
線形回帰、回帰木、ランダムフォレスト、ニューラルネットワーク
分類
性別(男あるいは女)や動物の種類など離散的な結果を予想するための分析
手法:
ロジスティック回帰、決定木、ランダムフォレスト、ニューラルネットワーク
セクション1: 入力層〜中間層
確認テスト P.13
確認テスト P.15
確認テスト P.17
1-1のファイルから中間層の出力を定義しているソースを抜き出せ。
セクション2: 活性化関数
ニューラルネットワークにおいて、次の層への出力の大きさを決める非線形の関数。
入力値の値によって、次の層への信号のON/OFFや強弱を定める働きをもつ。
線形性
以下の2つの条件を満たすとき、その関数は線形であるという。
加法性:任意の x, y に対して f(x + y) = f(x) + f(y)
斉次性:(作用との可換性): 任意の x, α に対して f (αx) = αf(x)
確認テスト P.20
線形と非線形の違いを図にかいて簡易に説明せよ。
活性化関数
ステップ関数
シグモイド関数
ReLU関数
各活性化関数のグラフ
確認テスト P.27
セクション3: 出力層
タスクが分類の場合、出力層は分類したい種類分だけノードを用意してやる。
例えば、犬、猫、ねずみの3種類に分類する場合には、出力層のノードは3つである。
出力層の正解値のベクトルで$\boldsymbol{y}=(y_{dog}, y_{cat}, y_{mouse})$のように表す。それぞれの要素は0または1の値をとる。これをOne-hot表現という。$(1, 0, 0)$の場合、正解が「犬」であることを意味する。
ニューラルネットワークの正解ベクトルと推測値ベクトル$\boldsymbol{\hat{y}}$の誤差が小さくなるよう重みやバイアスの値を最適化(学習)する。
正解ベクトルと推測値ベクトルの誤差を表す関数を誤差関数という。
誤差関数の代表的なものには二乗和平均誤差と交差エントロピー誤差がある。
二乗和平均誤差
$E=\frac{1}{2} \sum_{j} (y_j - \hat{y}_j)^2$
交差エントロピー誤差
$E=- \sum_j y_j \log \hat{y}_j$
確認テスト P.38
・なぜ、引き算でなく二乗するか述べよ
➡二乗をしないと各要素同士の和が0になり、誤差を表現できない可能性がある
・二乗和平均誤差の1/2はどういう意味を持つか述べよ
➡特に意味はない。二乗和平均誤差を微分する際に、1/2と打ち消しあわせ式をシンプルにするため。
分類問題の場合、出力層の出力は0 ~ 1 の範囲に限定し総和を1とするために、ソフトマックス関数を使う。
出力層で主に使われる活性化関数は以下の通り。
確認テスト P.45
数式に該当するソースコードを示し、一行づつ処理の説明をせよ。
確認テスト P.47
数式に該当するソースコードを示し、一行づつ処理の説明をせよ。
セクション4: 勾配降下法
勾配降下法により、誤差が最小となる重みとバイアスを見つける。
誤差関数の微分値に学習率を乗算したもので、重み・バイアスを何度も更新していく。
学習率が大きいほど早く収束するが、学習率があまりに大きいと発散してしまい最小値にたどり着かない。
一方、学習率が小さいと、収束までに時間がかかる。
確認テスト P.50
勾配降下法には以下の2種類がある。
・勾配降下法
・ミニバッチ勾配降下法
・確率的勾配降下法
確率的勾配降下法のメリット
•データが冗⻑な場合の計算コストの軽減
•望まない局所極小解に収束するリスクの軽減
•オンライン学習ができる
オンライン学習 参考サイト
ミニバッチ勾配降下法のメリット
•確率的勾配降下法のメリットを損なわず、計算機の計算資源を有効利用できる
•CPUを利用したスレッド並列化やGPUを利用したSIMD並列化
確認テスト P.59
オンライン学習とは何か2行でまとめよ
訓練データの一つを取り出してパラメータを更新
局所界に陥りにくいが外れ値にも過敏に反応
確認テスト P.62
セクション5: 誤差逆伝播法
数値微分
プログラムで微小な数値を生成し擬似的に微分を計算する一般的な手法
誤差勾配の計算は数値微分を使うと実装が簡単。
一方で、計算負荷が高く、計算に時間を要する ➡ 誤差逆伝播法の出番
※hは極微小な値
微分の連鎖律を生かして、算出された誤差を出力層側から順に微分し、前の層前の層へと伝播。
最小限の計算で各パラメータでの微分値を解析的に計算する手法。
不要な再帰的計算を避けて微分を算出できる。
確認テスト P.71
誤差逆伝播法では不要な再帰的処理を避ける事が出来る。既に行った計算結果を保持しているソースコードを抽出せよ。