深層学習 Day1
Section1 入力層〜中間層
- ニューラルネットワークとは
- 線型結合と非線形変換を繰り返す合成関数のこと。
- 出もともとは脳のモデルとして考案されたもの。
- 入力層とは
- 深層学習において、最初の入り口となる層のこと。
- 入力層は受け取った情報をそのまま中間層に渡す「伝搬する層」のこと。
- 中間層とは
- 入力層から情報を受け渡される中間の層のこと。
- 深層学習において、隠れ層とも呼ばれている。
- 実装演習 Section1
- 下部に記載。
- おまけ 中間層(隠れ層)はいくつが適切か
- ニューロンの数を知るためのガイドライン
- データを分類するために必要と予期される領域(決定境界)を描く。
- 決定境界に帰着する境界を線の集合として表現する。
- 選択された線の数は、第1隠れ層内の隠れニューロンの数を表す。
- ニューロンの数を知るためのガイドライン
Section2 活性化関数
- 活性関数とは
- ニューラルネットワークにおいて、次の層への出力の大きさを決める非線形の関数のこと。
- 入力値の値によって、次の層への信号のON/OFFや強弱を定める働きをもつ。
- 中間層用の活性化関数
- ReLU関数
- シグモイド(ロジスティック)関数
- ステップ関数
- ステップ関数(階段関数)
- 関数への入力値が0未満の場合には常に出力値が0、入力値が0以上の場合には常に出力値が1となるような関数のこと。
- シグモイド(ロジスティック)関数
- 生物の神経細胞が持つ性質をモデル化したもの。
- 単調増加性を持っている。
- 0〜1の値をとる関数のこと。
- RELU関数
- 関数への入力値が0以下の場合には出力値が常に0、入力値が0より上の場合には出力値が入力値と同じ値となる関数のこと。
- 実装演習 Section2
- 下部に記載。
- おまけ その他の活性化関数(中間層)
- tanh関数
- Leaky Relu関数
- PReLU(Parametric ReLU)関数
- RReLU(Randomized ReLU)関数
- Selu(Scaled Exponential Liner Units)関数
- Elu(Exponential Linear Units)関数
- Maxout関数
Section3 出力層
- 出力層
- 結果を出力する層のこと。
- 出力層用の活性化関数
- ソフトマックス関数
- 恒等写像
- シグモイド(ロジスティック)関数
- ソフトマックス関数
- ロジスティック関数を複数の次元に一般化したもの。
- 複数の出力値の合計が1.0(=100%)になるように変換して出力する関数のこと。
- 恒等写像
- 引数として用いたのと同じ値を常にそのまま返すような写像のこと。
- シグモイド関数
- 入力は実数であり、出力は0〜1の値をとる。
- 単調増加関数である。
- シグモイド関数の微分は、シグモイド関数自身で表現することが可能である。
- 尤度関数の微分をする際にシグモイド関数を有効利用することができる。
- 誤差関数(ガウスの誤差関数)
- 正規分布と密接に関係した関数のこと。
- 誤差関数 二乗誤差
- 回帰問題を解くためのニューラルネットワークの性能の悪さを出したいときによく使われる損失関数のこと。
- 誤差関数 交差エントロピー
- 2つの確率分布がどれくらい「離れているか」を表す指標のこと。
- 分類問題の予測の正しさの指標のこと。
- 実装演習 Section3
- 下部に記載。
- おまけ 二値分類と多クラス分類
- 二値分類
- 0か1の二値で分類を判断する分類のこと。
- 二値分類に活性化関数としてシグモイド関数を使った場合、セットで使われる損失関数が基本的に決まっており、二値分類用の交差エントロピーが使われる。
- 他クラス分類
- 0か1だけでなく、多数の分類カテゴリーがあるような分類のこと。
- 多クラス分類に活性化関数としてソフトマックス関数を使った場合、セットで使われる損失関数が基本的に決まっており、多クラス分類用の交差エントロピーが使われる。
- 二値分類
Section4 勾配降下法
- 深層学習の目的
- 学習を通して誤差を最小にするネットワークを作成すること。
- 勾配降下法
- 重みを少しずつ更新し、勾配が最小になる点を探索するアルゴリズムのこと。
- 最急降下法
- 関数の傾きのみから、関数の最小値を探索する連続最適化問題の勾配法のアルゴリズムの一つのこと。
- バッチ勾配降下法
- 関数の傾き、すなわち1次導関数に着目して最小値を求める方法のこと。
- 確率的勾配降下法(SGD)
- 連続最適化問題に対する勾配法の乱択アルゴリズムのこと。
- ミニバッチ勾配降下法
- バッチ勾配降下法と確率的勾配降下法の中間を取った方法のこと。
- 全データの誤差の和でもなく、1つのデータの誤差でもなく、いくつかのデータの誤差の和を使う方法のこと。
- 実装演習 Section4
- 下部に記載。
- おまけ よく使う勾配降下法アルゴリズム
- Momentum
- AdaGrad
- Adadelta
- adam
Section5 誤差逆伝播法
- 誤差逆伝播法
- お手本と出力を比較することで、重みwやバイアスbを修正していく学習手法のこと。
- 計算結果(=誤差)から微分を逆算することで、不要な再帰的計算を避けて微分を算出できる。
- 偏微分
- 変数が複数ある場合に,1つだけを変数として扱い,他を定数として扱うこと。
- 連鎖律
- 複数の関数が組み合わさった 合成関数 を微分する際のルールのこと。
- 最急降下法
- 関数の傾きのみから、関数の最小値を探索する連続最適化問題の勾配法のアルゴリズムの一つのこと。
- 順伝播
- 層の値を入力層から出力層に向かって順番に計算していく過程のこと。
- 逆伝播
- 偏微分を出力層から入力層に向かって順番に計算していく過程のこと。
- 実装演習 Section5
- 下部に記載。
- おまけ 勾配消失問題
- 誤差逆伝播法が下位層(出力層から入力層)に向かって進んでいくにつれて、勾配がどんどん緩やかになっていくため、勾配降下法による更新では下位層のパラメータはほとんど変わらず、訓練は最適値に収束しなくなること。
深層学習 Day2
Section1 勾配消失問題
- 勾配消失問題
- 誤差逆伝播法が下位層(出力層から入力層)に向かって進んでいくにつれて、勾配がどんどん緩やかになっていくため、勾配降下法による更新では下位層のパラメータはほとんど変わらず、訓練は最適値に収束しなくなること。
- 勾配消失問題を解決する活性化関数 ReLU関数
- 関数への入力値が0以下の場合には出力値が常に0、入力値が0より上の場合には出力値が入力値と同じ値となる関数のこと。
- 勾配消失問題の回避とスパース化に貢献することで良い成果をもたらしている。
- 重みの初期値設定 Xavier
- 活性化関数はReLU関数、シグモイド(ロジスティック)関数、双曲線正接関数等を使用する。
- 重みの要素を、前の層のノード数の平方根で除算した値のこと。
- 重みの初期値設定 He
- 活性化関数はReLU関数を使用する。
- 重みの要素を、前の層のノード数の平方根で除算した値に対し√2をかけ合わせた値のこと。
- バッチ正規化
- ミニバッチ単位で、入力値のデータの偏りを抑制する手法のこと。
- 重みの要素を、前の層のノード数の平方根で除算した値に対し√2をかけ合わせた値のこと。
- 実装演習 Section1
- 下部に記載。
- おまけ 勾配発散問題(勾配爆発問題)
- 勾配が大きくなりすぎて、コンピューターが処理できなくなる問題のこと。
Section2 学習立最適化手法
- 学習立最適化手法
- モメンタム
- AdaGrad
- RMSProp
- Adam
- モメンタム
- 誤差をパラメータで微分したものと学習率の積を減算した後、現在の重みに前回の重みを減算した値と慣性の積を加算する。
- モメンタムのメリット
- 局所的最適解にはならず、大域的最適解となる。
- 谷間についてから最も低い位置(最適値)にいくまでの時間が早い。
- AdaGrad
- 誤差をパラメータで微分したものと再定義した学習率の積を減算する。
- AdaGradのメリット
- 勾配の緩やかな斜面に対して、最適値に近づける。
- AdaGradのデメリット
- 学習率が徐々に小さくなるので、鞍点問題を引き起こす事がある。
- RMSProp
- 誤差をパラメータで微分したものと再定義した学習率の積を減算する。
- 実装演習 Section2
- 下部に記載。
- おまけ その他の最適化手法
- AdamW
- Adabound
- RAdam
<li>RMSPropのメリット
<ul>
<li>局所的最適解にはならず、大域的最適解となる。</li>
<li>ハイパーパラメータの調整が必要な場合が少ない。</li>
</ul>
</li>
<li>Adam
<ul>
<li>モメンタムの、過去の勾配の指数関数的減衰平均のこと。</li>
<li>RMSPropの、過去の勾配の2乗の指数関数的減衰平均のこと。</li>
</ul>
</li>
<li>Adamのメリット
<ul>
<li>モメンタムおよびRMSPropのメリットを孕んだアルゴリズムである。</li>
</ul>
</li>
Section3 過学習
- 過学習
- テスト誤差と訓練誤差とで学習曲線が乖離すること。
- 正則化
- ネットワークの自由度(層数、ノード数、パラメータの値等)を制約すること。
- 正則化手法を利用して過学習を抑制する。
- Weight decay(荷重減衰)
- 重みが大きい値をとることで、過学習が発生することがある。
- 誤差に対して、正則化項を加算することで、重みを抑制する。
- L1正則化(Lasso正則化)
- 正則化項(罰則項)として「L1ノルム」を採用した正則化のこと。
- L2正則化(Ridge正則化)
- 正則化項(罰則項)として「L2ノルム」を採用した正則化のこと。
- ドロップアウト
- ランダムにノードを削除して学習させること。
- 実装演習 Section3
- 下部に記載。
- おまけ スパース正則化
- ユニットの活性の割合をコントロールする正則化手法のこと。
- ハイパーパラメータとして、スパース正則化をどれくらい重要視するかを決める係数と活性の割合を設定する。
Section4 畳み込みニューラルネットワークの概念
- 畳み込み層
- 3次元の空間情報も学習できるような層が畳み込み層のこと。
- 単純型細胞をモデルに考えられたもののこと。
</ul>
- パディング
- 入力画像のピクセルの周りにピクセルを囲むテクニックのこと。
- 画像のサイズが変わらないようにする手法のこと。
- 端の特徴量もしっかり捉えることができる。
- ストライド
- フィルタが画像を移動する間隔のこと。
- チャンネル
- 各フィルタに対応する畳み込み層内のニューロンセットのこと。
- 全結合層
- 各プーリング層からの出力を通常のニューラルネットワークにつなぐ層のこと。
- 全結合で画像を学習した際の課題
- RGBの各チャンネル間の関連性が、学習に反映されないこと。
- プーリング層
- 複雑型細胞をモデル化したもののこと。
- 入力画像におけるフィルタ形状の位置ずれを吸収するように機能する。
- 実装演習 Section4
- 下部に記載。
- おまけ 全結合層
- 畳み込みフィルタ層とプーリング層を通して特徴部分が取り出された画像データを一つのノードに結合し、活性化関数によって変換された値を出力する層のこと。
Section5 最新のCNN
- AlexNet
- 5層の畳み込み層およびプーリング層など、それに続く3層の全結合層から構成されるモデルのこと。
- サイズ4096の全結合層の出力にドロップアウトを使用している。
- ヒルトン教授らのチームによって発表された物体認識のためのモデルのこと。
- 物体認識のために、初めて深層学習の概念および畳み込みニューラルネットワークの概念を取り入れたアーキテクチャである。
- AlexNetの特徴
- 活性化関数ReLU
- Max Pooling
- GPUの活用
- Data Augmentation(データ拡張)
- Dropout
- 実装演習 Section5
- 下部に記載。
- おまけ その他のCNN
- ZFNet(2013年)
- GoogLeNet(2014年)
- VGGNet(2014年)
- ResNet(2015年)
- SENet(2017年)