#深層学習(前編2)
##1 勾配消失問題
勾配消失の問題点
誤差逆伝播が下位層(入力層側)に進んでいくに連れて、勾配がどんどん緩やかになっていく。
そのため、勾配降下法による更新では、下位層のパラメータはほとんど変わらず、訓練は最適値に収束しなくなる。
シグモイド関数は、大きな値では出力の変化が微小なため、勾配消失問題を引き起こす事があった。
シグモイド関数を微分した時の最大値は、入力値が0の時で、その最大値は0.25であり、微分するごとに小さくなる。
【sigmoid関数のソースコード例】
def sigmoid(x):
return 1/(1 + np.exp(-x))
【sigmoid関数の微分のソースコード例】
def d_sigmoid(x):
return (1.0 - sigmoid(x)) * sigmoid(x)
勾配消失の解決方法
・活性化関数の選択
ReLU関数を使用することに勾配消失が起こりにくくなる。
【ReLU関数のソースコード例】
def relu(x):
return np.maximum(0, x)
【ReLU関数の微分のソースコード例】
def d_relu(x):
return np.where( x > 0, 1, 0)
・重みの初期値の設定方法
Xavierにより設定する。(重みの要素を、前の層のノード数の平方根で除算した値)
Heにより設定する。(重みの要素を、前の層のノード数の平方根で除算した値に対し、√2をかけ合わせた値)
・バッチ正規化
ミニバッチ単位で、入力値のデータの偏りを抑制する手法
活性化関数に値を渡す前後に、ZあるいはU(=WZ+b)をバッチ正規化層を加えて入力値とする。
ソースコードで演習
シグモイド関数は、HeよりXavierの方が相性が良いとされていたが、実際にやってみると、Heの方が良い結果となった。(たまには、そのようになる時もあるのかもしれない)
##2 学習率最適化手法
勾配降下法の復習
学習率は大きすぎても小さすぎてもダメ!
主な学習率最適化手法の種類
・モメンタム
・AdaGrad
・RMSProp
・Adam
モメンタム
誤差をパラメータで微分したものと学習率の積を減算した後、現在の重みに前回の重みを減算した値と慣性の積を加算する。
慣性(ハイパーパラメータ)μは、一般的には0.05~0.09とする。
メリットは、局所的最適解にはならず、大域的最適解となること。また、谷間にたどり着いてから最も低い位置(最適解)にいくまでの時間が早いこと。
AdaGrad
誤差をパラメータで微分したものと再定義した学習率の積を減算する。
学習率が徐々に小さくなる。
Θはすごく小さな値である。
Θを加えるのは、ゼロにならないようにするためである。
メリットは、勾配の緩やかな箇所に対しても最適値に近づくこと。
デメリットは、学習率が徐々に小さくなるので、鞍点問題を引き起こす事があること。
RMSProp
誤差をパラメータで微分したものと再定義した学習率の積を減算する。
メリットは、局所的最適解にはならず、大域的最適解となること。また、ハイパーパラメータの調整が必要な場合が少ないこと。
Adam
モメンタムとRMSPropのいいところを取り入れたもの。
モメンタムの 過去の勾配の指数関数的減衰平均
RMSPropの 過去の勾配の2乗の指数関数的減衰平均
##3 過学習
復習
過学習とは、テスト誤差と訓練誤差とで学習曲線が乖離すること。テスト誤差と訓練誤差とで学習曲線が乖離すること。特定の訓練サンプルに対して、特化して学習したもの。
過学習の原因は、ネットワークの自由度(層数、ノード数、パラメータの値など)が高いことによる。
過学習の対策
過学習の対策としては、ネットワークの自由度(層数、ノード数、パラメータの値など)を制限する正則化がある。
正則化の主な方法に、以下のものがある。これらを組み合わせることも可能である。
・L1正則化、L2正則化
・ドロップアウト
L1正則化、L2正則化
L1正則化、L2正則化は、誤差の項に対して、正則化項を加算して、重みの大きさを抑制することで、過学習を抑制する。
Pが1の場合をL1正則化(L1ノルム)と呼ぶ。
Pが2の場合をL2正則化(L2ノルム)と呼ぶ。
λは、Weight decay係数と呼ぶ。
この絵の上の同心円は誤差項を示し、下の円やひし形は正則化項を示す。
Lasso推定量がL1正則化である。スパース推定(ゼロにする)
Ridge推定量がL2正則化である。縮小推定(ゼロに近づける)
ドロップアウト
ドロップアウトは、ランダムにノードを削除して学習させることにより、過学習を抑制する。
データ量を変化させずに、異なるモデルで学習させるとも解釈できる。
##4 畳み込みニューラルネットワークの概念
CNNの構造図(例)
いろいろな組み合わせがある。
CNNは、画像だけに使用されるのではない。
畳み込み層の演算概念(パディング)
入力と出力のサイズを合わせるためにゼロで埋める。
ゼロ以外で埋めることも可能である。
畳み込み層の演算概念(チャンネル)
チェンネルを利用して3次元データにも対応できる。
チャンネルの数だけフィルターの数が必要となる。
全結合層では、RGBの各チャンネル間の関連性が学習に反映されない。
畳み込み層を使用すると各チャンネル間の関連性が学習される。
プーリング層の演算概念
マックスプーリングは、最大値
アベレージプーリングは、平均値
出力高さサイズ = (データ高さサイズ + 2*パディングサイズ ー フィルタ高さサイズ / ストライドサイズ) + 1
出力幅サイズ = (データ幅サイズ + 2*パディングサイズ ー フィルタ幅サイズ / ストライドサイズ) + 1
ソースコードで演習
・im2col
イメージデータ(多次元データ(2次元または3次元など))を行列データに展開する。
多くの演算処理で活用しやすくなる。
・col2im
im2colの逆展開。im2colが復元されるとは限らない。
・sinple convolution network class
conv - relu - pool - affine - relu - affine - softmax
畳み込み層 - ReLU - プーリング層 - 全結合層 - ReLU - 全結合層 - SoftMAX
・sinple convolution network classによる一連の処理
##5 最新のCNN
AlexNet
2012年に開かれた画像認識コンペティション2位に大差をつけて優勝したモデルである。
AlexNetの登場で、ディープラーニングが大きく注目を集めた。
・モデルの構造
5層の畳み込み層およびプーリング層など、それに続く3層の全結合層から構成される。
過学習を防ぐため、サイズ4096の全結合層の出力にドロップアウトを使用している。
GoogleNet
修了テストより
GoogleNetの特徴
AuxiliaryLossを導入することでネットワークの中間層に直接誤差を加えることができる。
#深層学習(後編1)
##1 再帰型ニューラルネットワークの概念
RNNの概念
時系列データに対応可能な、ニューラルネットワークである 。
時系列データとは
時間的順序を追って一定間隔ごとに観察され,しかも相互に統計的依存関係が認められるようなデータの系列
音声データ、テキストデータ、株価、乗客数…etc
RNNの重み
大きくわけて 3 つの重みがある。
入力から現在の中間層を定義する際にかけられる重み。
中間層から出力を定義する際にかけられる重み。
中間層から中間層を定義する際の重み。
RNNの特徴とは
時系列モデルを扱うには、初期の状態と過去の時間 t 1 の状態を保持し、そこから次の時間での t を再帰的に求める再帰構造が必要になる 。
BPTT(Backpropagation Through Time)
・BPTTとは
RNNにおいてのパラメータ調整方法の一種。
誤差逆伝播法を拡張したもの。
・誤差逆伝播法の復習
計算結果(=誤差)から微分を逆算することで、不要な再帰的計算を避けて微分を算出できる 。
演習
下図はBPTT を行うプログラムである。なお簡単化のため活性化関数は恒等関数であるとする。
また、calculate_dout 関数は損失関数を出力に関して偏微分した値を返す関数であるとする。
(お)にあてはまるのはどれか。
RNN では中間層出力 h_{t} が過去の中間層出力 h_{t -1},.., h_{1} に依存する。
RNNにおいて損失関数を重み W や U に関して偏微分するときは、それを考慮する必要があり、dh_{t}/dh_{t-1} = Uであることに注意すると、過去に遡るたびに U が掛けられる。
つまり、「delta_t = delta_t.dot(U)」となる。
##2 LSTM
(Long short-term memory、長・短期記憶)
RNNの課題
時系列を遡れば遡るほど、勾配が消失していく。長い時系列の学習が困難である。
RNNの解決策
勾配消失の解決方法とは、別で、構造自体を変えて解決したものがLSTM。
CEC
(Constant Error Carousel、定誤差カルーセル)
勾配消失および勾配爆発の解決方法として、勾配が1 であれば解決できる。
・CECの課題
CECは、入力データについて、時間依存度に関係なく重みが一律である。
CECにより⇒ニューラルネットワークの学習特性が無くなる。
入力層から隠れ層への重みが一律になることを「入力重み衝突」と呼ぶ。
隠れ層から出力層への重みが一律になることを「出力重み衝突」と呼ぶ。
入力・出力ゲート
・入力・出力ゲートの役割とは
入力・出力ゲートを追加することで、それぞれのゲートへの入力値の重みを、重み行列 W,U で可変可能とする。
それにより、CECの課題を解決 。
忘却ゲート
・LSTMブロック(入力ゲート、CEC、出力ゲート)の現状と課題、解決策
現状:CECは、過去の情報が全て保管されている 。
課題:過去の情報が要らなくなった場合、削除することはできず、保管され続ける 。
(関係性がほとんどない過去の情報に影響され続けてしまう)
解決策:過去の情報が要らなくなった場合、そのタイミングで情報を忘却する機能が必要 。
それが忘却ゲートである。
・忘却ゲートの作用
以下の文章の「とても」という言葉は、空欄の予測において、影響を及ぼさないようにする。
「映画おもしろかったね。ところで、とてもお腹が空いたから何か( ) 。」
・演習
以下のプログラムは、LSTM の順伝播を行うプログラムである。
ただし _sigmoid 関数は要素ごとにシグモイド関数を作用させる関数である。
(け)にあてはまるのはどれか。
新しいセルの状態は、計算されたセルへの入力と1 ステップ前のセルの状態に入力ゲート、忘却ゲートを掛けて足し合わせたものと表現される。つまり、「input_gate * a + forget_gate * c」である。
覗き穴結合
・LSTMブロック(入力ゲート、CEC、出力ゲート)の課題、解決策
課題:CECの保存されている過去の情報を 、任意のタイミングで他のノードに伝播させたり 、あるいは任意のタイミングで忘却させたい。CEC自身の値は、ゲート制御に影響を与えていない 。
解決策:CEC自身の値に、重み行列を介して伝播可能にする構造が考え出された。
それが覗き穴結合である。
##3 GRU
・LSTMブロック(入力ゲート、CEC、出力ゲート)の課題、解決策
課題:LSTM では、パラメータ数が多く、計算負荷が高くなる問題があった 。
解決策:パラメータを大幅に削減し、精度は同等またはそれ以上が望める構造が考え出された。
それがGRUである。計算負荷が低くなるメリットがある。
全体像
演習
GRU(Gated Recurrent Unit)も LSTM と同様に RNN の一種であり、単純な RNN において問題となる勾配消失問題を解決し、長期的な依存関係を学習することができる。LSTM に比べ変数の数やゲートの数が少なく、より単純なモデルであるが、タスクによっては LSTM より良い性能を発揮する。より良い性能を発揮する。以下のプログラムは GRU の順伝播を行うプログラムである。ただし _sigmoid 関数は要素ごとにシグモイド関数を作用させる関数である。
(こ)にあてはまるのはどれか。
新しい中間状態は、 1 ステップ前の中間表現と計算された中間表現の線形和で表現される。
つまり更新ゲート z を用いて、「(1 -z) * h + z * h_bar」と書ける。
##4 双方向RNN
双方向RNNとは
過去の情報だけでなく、未来の情報を加味することで、精度を向上させるためのモデル
実用例は、文章の推敲や、機械翻訳等
演習
以下は双方向RNN の順伝播を行うプログラムである。
順方向については、入力から中間層への重み W_f , 一ステップ前の中間層出力から中間層への重みを U_f 、 逆方向に関しては同様にパラメータ W_b , U_b を持ち、両者の中間層表現を合わせた特徴から出力層への重みは V である。_rnn 関数は RNN の順伝播を表し中間層の系列を返す関数であるとする。
(か)にあてはまるのはどれか
双方向 RNN では、順方向と逆方向に伝播したときの中間層表現をあわせたものが特徴量となるので、「np.concatenate([h_f , h_b[::-1]], axis=1)」である。
##5 Seq2Seq
Seq2Seqとは
Encoder-Decoder モデルの一種を指す。
機械対話や、機械翻訳などに使用されている。
Encoder RNN
ユーザーがインプットしたテキストデータを、単語等のトークンに区切って渡す構造 。
・Encoder RNNの処理手順
①Taking: 文章を単語等のトークン毎に分割し、トークンごとの ID に分割する 。
②Embedding: ID から、そのトークンを表す分散表現ベクトルに変換 。
③EncoderRNN: ベクトルを順番に RNN に入力していく 。
vec1(ベクトル1) を RNN に入力し、 hidden state を出力 。このhidden state と次の入力 vec2(ベクトル2) をまた RNN に入力してきた hidden state を出力という流れを繰り返す 。最後の vec(最終ベクトル) を入れたときの hidden state を final state としてとっておく。この final state が thought vector と呼ばれ、入力した文の意味を表すベクトルとなる 。
Decoder RNN
システムがアウトプットデータを、単語等のトークンごとに生成する構造 。
・Decoder RNNの処理手順
①Decoder RNN: Encoder RNNの final state (thought vector) から、各token の生成確率を出力していきます final state を Decoder RNN のinitial state ととして設定し、 Embedding を入力。
②Sampling: 生成確率にもとづいて token をランダムに選びます 。
③Embedding: ②で選ばれた token を Embedding して Decoder RNN への次の入力とします 。
④Detokenize: ①~③を繰り返し、②で得られた token を文字列に直します 。
演習
機械翻訳タスクにおいて、入力は複数の単語から成る文(文章)であり、それぞれの単語はone hot ベクトルで表現されている。Encoder において、それらの単語は単語埋め込みにより特徴量に変換され、そこから RNN によって(一般には LSTM を使うことが多い)時系列の情報をもつ特徴へとエンコードされる。以下は、入力である文(文章)を時系列の情報をもつ特徴量へとエンコードする関数である。ただし _activation 関数はなんらかの活性化関数を表すとする。
(き)にあてはまるのはどれか。
単語 w は one hot ベクトルであり、それを単語埋め込みにより別の特徴量に変換する。
これは埋め込み行列 Eを用いて、「E.dot(w)」と書ける。
HREDとは
Seq2seqでは、会話の文脈無視で、応答がなされたが、 HRED では 、前の単語の流れに即して応答されるため、より人間らしい文章が生成される 。
VHREDとは
HREDにVAEの潜在変数の概念を追加したもの 。
HREDの課題を 、VAE の潜在変数の概念を追加することで解決した構造
VAEとは
通常のオートエンコーダーの場合、何かしら潜在変数 z にデータを押し込めているものの 、その構造がどのような状態かわかない。
そこで、VAEは、データを潜在変数 z の確率分布という構造に押し込めることを可能にします。
VAEは、オートエンコーダ(自己符号化器)の潜在変数に確率分布 z ~N (0,1) を導入したもの。
オートエンコーダとは
教師なし学習の一つ。そのため学習時の入力データは訓練データのみで教師データは利用しない 。
入力データから潜在変数z に変換するニューラルネットワークを Encoder
逆に潜在変数z をインプットとして元画像を復元するニューラルネットワークを Decoder
##6 Word2vec
RNNの課題
RNN では、単語のような可変長の文字列を NN に与えることはできないので、固定長形式で単語を表す必要があった。
対策
可変長の文字列でもNNに与えるようにしたのが、Word2vecである。
Word2vecの概念
各単語の意味をベクトル表現化する手法。
one-hotベクトル
例文) I want to eat apples. I like apples.
applesは以下のようなベクトルとして扱われる。
(本来は、辞書の単語数だけ one-hot ベクトルがある)
Word2vecのメリット
従来は、ボキャブラリ × ボキャブラリの重み行列が発生していたが、
Word2vecにより、ボキャブラリ × 任意の単語ベクトル次元のみの重み行列が発生する。
これにより、大規模データの分散表現の学習が 、現実的な計算速度とメモリ量で実現可能にした 。
##7 Attention Mechanism
seq2seqの課題
seq2seq の問題は長い文章への対応が難しいです。
seq2seq では、可変長ベクトルは無理なので、 2 単語でも100 単語でも、固定次元ベクトルの中に入力しなければならない。
解決策
文章が長くなるほどそのシーケンスの内部表現の次元も大きくなっていく、仕組みが必要となる。
そこで、「入力と出力のどの単語が関連しているのか」の関連度を学習する仕組みであるAttention Mechanismが考え出された。
具体例
「 a 」については、そもそも関連度が低く、「 I 」については「私」との関連度が高い。
関連度を重視するので、少ない計算で解析が可能となる。
演習
以下は再帰型ニューラルネットワークにおいて、構文木を入力として再帰的に文全体の表現ベクトルを得るプログラムである。ただし、ニューラルネットワークの重みパラメータはグローバル変数として定義してあるものとして、_activation関数はなんらかの活性化関数であるとする。木構造は再帰的な辞書で定義してあり、rootが最も外側の辞書であると仮定する。
(く)にあてはまるのはどれか。
隣接単語(表現ベクトル)から表現ベクトルを作るという処理は、隣接している表現 left と right を合わせたものを特徴量としてそこに重みを掛けることで実現する。
つまり、「W.dot( np.concatenate ([left, right]))」である。
#深層学習(後編2)
##1 Tensorflowの実装演習
なぜ、TensorFlowなのか
実際にはNumpyから実装するということはあまりなく、TensorFlowなどのwrapperのライブラリーで実装することが多い。TensorFlowが一番多く使用されている。
TensorFlowとは
グーグルが作ったディープラーニングのフレームワークであり、簡単にディープラーニングの実装ができる。
TensorFlowのエラーについて
(演習中に発生したエラーとその対処方法についてメモ)
エラー「ModuleNotFoundError: No module named 'tensorflow'」
tensorflowがインストールされていなかったようだ。
→AnacondaPromptで「pip install tensorflow」を実行したら解決した。
エラー「AttributeError: module 'tensorflow' has no attribute 'Session'」
tensorflowのバージョンが悪かったようだ。
→AnacondaPromptで「pip uninstall tensorflow」「pip install tensorflow-gpu==1.3.0」を実行したら解決した。
placeholder
変数の入れ物の定義
変数は後から定義できる
MNIST(エムニスト)分類1層
入力値 28*28白黒画像、出力値 0~9の数字
MNIST(エムニスト)分類3層
tensorflowでは、optimizerは以下のものが用意されている。
optimizer = tf.train.GradientDescentOptimizer(0.5)
optimizer = tf.train.MomentumOptimizer(0.1, 0.9)
optimizer = tf.train.AdagradOptimizer(0.1)
optimizer = tf.train.RMSPropOptimizer(0.001)
optimizer = tf.train.AdamOptimizer(1e-4)
すべて試したところ、RMSPropOptimizer(0.001)が一番よかった。(正解率0.976)
例題解説
正解:(a) denseな演算ではなく、スパースな演算である。
正解:(a) 1*1畳み込みによる次元削減により計算量が減少するが、Auxiliary Classifiersの追加により全体としては計算量が抑えられる訳ではない。
正解:(あ) ワンショット学習というのは、あるクラスに対して、画像を1枚用意して、その画像の特徴ベクトルがクラスに対して近いか遠いかを学習する。
学習データが悪い場合の例
医師と看護師を分類する学習おいて、女性の医師と男性の看護師の場合にエラーが多い。
学習データのほとんどが、医師は男性で、看護師は女性であったため、男性か女性で判定していた。
正解:(a)
(b)は、最大2つではなく必ず2つ
(c)は、単純和ではなく重み付け
(d)は、2つの候補領域も出力される
##2 強化学習
強化学習とは
長期的に報酬を最大化できるように環境のなかで行動を選択できるエージェントを作ることを目標とする機械学習の一分野。行動の結果として与えられる利益報酬をもとに、行動を決定する原理を改善していく仕組み。
強化学習の応用例
マーケティング分野(キャンペーンのコストという負の報酬とキャンペーンで生み出されると推測される売上という正の報酬を受ける)、ゲーム分野
探索と利用のトレードオフ
環境について事前に完璧な知識があれば、最適な行動を予測し決定することは可能。
どのような顧客にキャンペーンメールを送信すると、どのような行動を行うのかが既知である状況。
強化学習の場合、上記仮定は成り立たないとする。不完全な知識を元に行動しながら、データを収集。最適な行動を見つけていく。
①過去のデータで、ベストとされる行動のみを常に取り続ければ、他にもっとベストな行動を見つけることはできない。探索が足りない状態。
②未知の行動のみを常に取り続ければ、過去の経験が活かせない。利用が足りない状態。
①と②はトレードオフの関係性
強化学習の差分
強化学習と通常の教師あり、教師なし学習との違いは?
結論:目標が違う
・教師なし、あり学習では、データに含まれるパターンを見つけ出すおよびそのデータから予測することが目標
・強化学習では、優れた方策を見つけることが目標
強化学習の歴史
・冬の時代があったが、計算速度の進展により大規模な状態をもつ場合の、強化学習を可能としつつある。
・関数近似法と、Q 学習を組み合わせる手法の登場
Q学習:行動価値関数を、行動する毎に更新することにより学習を進める方法関数
関数近似法:価値関数や方策関数を関数近似する手法のこと
価値関数
・価値を表す関数としては、状態価値関数と行動価値関数の2 種類がある
状態価値関数:ある状態の価値に注目する場合
行動価値関数:状態と価値を組み合わせた価値に注目する場合
方策勾配法
方策反復法。方策をモデル化して最適化する手法(再帰的に更新していく手法)。
Jとは? →方策の良さを表す関数
Jを定義しなければならない
定義方法
平均報酬:行動による全ての価値の平均
割引報酬和:過去になればなるほど、加算する報酬の割合を減衰する方法(一番最近のものを重視する)
上記の定義に対応して、行動価値関数Q(s, a)の定義を行う。
方策勾配の定理が成り立つ。
方策勾配の定理
方策勾配定理導出のポイント
方策勾配定理は基本的には下記の2式から導出される
状態価値関数 v(s) = sum_a ( π( a|s)Q(s,a))
ベルマン方程式 Q(s,a) = sum_s’(P(s’|s,a)[r(s,a,s’) + γ V(s’)]
DQN
(修了テストより)
DQNの特徴
・強化学習で用いられるQ学習と呼ばれるアルゴリズムに基づいている。
・DQNの出力の数はとることができる行動の数である。
・学習を安定化させるためにTarget Networkと呼ばれる一定間隔ごとに更新されるネットワークを用いている。
・DQNでは画像などの高次元データを直接入力として用いることはできる。
※2021/01/11:ここに掲載したバナー広告は利用規約違反のため削除しました。