Section1 再帰型ニューラルネットワークの概念
RNN の全体像
RNN とは
時系列データに対応可能なニューラルネットワーク
時系列データ
時間的順序を追って一定間隔ごとに観察され,しかも相互に統計的依存関係が認められるようなデータの系列
- 音声データ
- テキストデータ
- 株価データ
RNN について
順伝播において、前の中間層の計算結果を重みとバイアスで処理をした上で、中間層への入力の一部とする。
時系列モデルを扱うには、初期の状態と過去の時間 t-1 の状態を保持し、そこから次の時間での t を再帰的に求める再帰構造が必要になる。
BPTT
BPTT とは
Backpropagation Through Time
誤差逆伝播法の一種
RNN におけるパラメータ調整方法
誤差逆伝播法を時系列の流れを含めて実施する形
長期間の利用には計算量が大きくなり不向きである
BPTT の数学的記法
$\frac{\partial E}{\partial W_{(in)}} = \frac{\partial E}{\partial u^t} \big[ \frac{\partial u^t}{\partial W_{(in)}} \big]^T = \delta ^t[x^t]^T$
np.dot(X.T, delta[:,t].reshape(1,-1))
$ \frac{\partial E }{\partial W*{in}} = \frac{ \partial E}{ \partial v^t} \big[ \frac{ \partial u^t}{ \partial W*{(out)}}\big] ^t = \delta ^{out,t} [ z^t] ^T$
np.dot(z[:,t+1].reshape(-1,1), delta_out[:,t].reshape(-1,1))
$\frac{ \partial E }{\partial W} = \frac{\partial E}{\partial u^t} \big[ \frac {\partial u^t}{\partial W} \big] ^t = \delta ^t [z^{t-1}]^T$
np.dot(z[:,t].reshape(-1,1), delta[:,t].reshape(1,-1))
$ \frac{ \partial E}{ \partial u^t} = \frac{\partial E}{ \partial v^t} \frac{\partial v^t}{\partial i^t} = f'(u^t)W_{out}^T \delta^{out,t} = \delta ^t$
delta[:,t] = (np.dot(delta[:,t+1].T, W.T) + np.dot(delta_out[:,t].T, W_out.T)) * functions.d_sigmoid(u[:,t+1])
パラメータの更新
$ W*{(in)}^{t+1} = W*{(in)}^t - \epsilon \frac {\partial E}{ \partial W*{(in)}} = W*{(in)}^t - \epsilon \sum_{z=0}^{T_t} \delta ^{t-z} \big[ x^{t-z} \big] ^T$
W_in -= learning_rate * W_in_grad
$ W*{(out)}^{t+1} = W*{(out)}^t - \epsilon \frac {\partial E}{ \partial W*{(out)}} = W*{(out)}^t - \epsilon \delta ^{out,t} \big[ z^t \big] ^T$
W_out -= learning_rate * W_out_grad
$ W^{t+1} = W^t - \frac{\partial E}{ \partial W} = W*{(in)}^t - \epsilon \sum*{z=0}^{T_t} \delta ^{t-z} \big[ x^{t-z-1} \big] $
W -= learning_rate * W_grad
BPTT の全体像
E^t = loss(y^t,d^t) \\
= loss(g(w_{(out)}z^t + c),d^t) \\
= loss(g(W_{(out)}f(W_{(in)}x^t + Wz^{t-1} + b)+c),d^t)
Section2 LSTM
RNN の課題
時系列を遡れば遡るほど、勾配が消失していく → 長い時系列の学習が困難
解決策
構造を変えることでその問題を解決したものを LSTM と呼ぶ
CEC
勾配消失および勾配爆発の解決方法として、勾配が 1 であれば解決できる
課題
入力データについて、時間依存度に関係なく重みが一律である
→ ニューラルネットワークの学習特性がそもそも失われてしまう
解決策
入力ゲートと出力ゲート
入力ゲートと出力ゲート
入力ゲートと出力ゲートを追加することで
それぞれのゲートへの入力値の重みを重み行列 W,U で可変可能とする
→CEC の問題を解決
現状
すべての過去の情報をすべての情報が保管される
課題
過去の情報がいらなくなった場合削除できない
常に過去の情報に引っ張られている
解決策
忘却ゲート
忘却ゲート
不要になった CEC の情報を削除するためのゲート
課題
CEC の保存されている過去の情報を、任意のタイミングで他のノードに伝播させたり、あるいは任意のタイミングで忘却させたい。CEC 自身の値は、ゲート制御に影響を与えていない。
解決策
のぞき穴結合
除き穴結合
CEC 自身の値に、重み行列を介して伝播可能にした構造。
GRU
LSTM では、パラメータが多く計算負荷が高くなる問題があった
→GRU
GRU ではそのパラメータが削減されていることが画像からわかる
Section4 双方向 RNN
時系列データにおいて、過去の情報だけでなく、未来の情報も使用する
Section5 Seq2Seq
Encoder-Decoder モデルの一種
機械翻訳や対話のためのモデルとして利用される。
Encoder RNN
ユーザーがインプットしたテキストデータを、単語等のトークンに区切って渡す構造。
Taking:形態素解析などで文章を単語などのトークンに分解し、トークンごとの ID に変換する
Embedding:ID をもとに、分散表現ベクトルに変換
Encoder RNN:ベクトルを順番に RNN に入力しておく
vec1 を RNN に入力し、hidden state を出力。これと次の入力 vec2 をまた RNN に入力...という風に繰り返す
最後の vec を入れた時の hidden state を final state としてとっておく。これが入力した分の意味を表すベクトルとなる
Decoder RNN
システムがアウトプットデータを、単語等のトークンごとに生成する構造。
1.Decoder RNN: Encoder RNN の final state (thought vector) から、各 token の生成確率を出力 final state を Decoder RNN の initial state ととして設定し、Embedding を入力
2.Sampling: 生成確率にもとづいて token をランダムに選択
3.Embedding: token を Embedding して Decoder RNN への次の入力とする
4.Detokenize: 1-3 を繰り返し、2 で得られた token を文字列に直す。
HRED
seq2seq は一問一答しかできない
→ 問に対して文脈も何もなく、ただ応答が行われる続ける
解決策として →HRED
HRED とは
過去の n−1 個の発話から次の発話を生成
より人間らしい応答
Seq2Seq + Context RNN(Context RNN: これまでの会話コンテキストをベクトルに変換する構造。)
HERD の課題
会話の流れの多様性がない
短いよくある答えを学ぶ傾向がある
VHRED
HREAD に、VAE の潜在変数の概念を追加して HREAD の課題の解決を解決したもの
VAE
オートエンコーダー
教師なし学習の一つ。
教師データは利用しない。
入力データから潜在変数 z に変換するネットワーク が Encoder
潜在変数 z をインプットとして元画像を復元するニューラルネットワークが Decoder
メリット
次元削減を行うことができる。
VAE
通常のオートエンコーダーの場合は潜在変数 z にデータを押し込めているものの、その構造がどのような状態かわからない。
VAE の場合は潜在変数 z に確率分布 z∼N(0,1)を仮定したもの
データを潜在変数 z の確率分布という構造に押し込めることを可能にする
Section6 Word2Vec
RNN の課題
単語のような可変長の文字列を NN に与えることはできない
→ 固定長でしか学習できない
解決策
Word2Vec
Word2vec
可変長の文字列を固定長の形式に変換するためもの。
学習データからボキャブラリを作成
ボキャブラリを次元として、入力データを one-hot-vector を作成する → 分散表現
メリット
大規模データの分散表現の学習が、現実的な計算速度とメモリ量で実現可能にした。
今までは、「ボキャブラリ × ボキャブラリ」だけの重み行列が誕生
Word2vec は「ボキャブラリ × 任意の単語ベクトル次元」で重み行列が誕生。
Section7 AttentionMechanism
seq2seq の課題
長い文章への対応が難しい。
文章が長くなるほど、入力の内部表現の次元も大きくなっていく。
解決策
「入力と出力のどの単語が関連しているのか」を学習する
→Attention Mechanism
確認テスト
サイズ 5×5 の入力画像を、サイズ 3×3 のフィルタで 畳み込んだ時の出力画像のサイズを答えよ。 なおストライドは 2、パディングは 1 とする。
解答
3×3
RNN のネットワークには大きくわけて 3 つの重みがある。1 つは入力から現在の中間層を定義する際にかけられる重み、1 つは中間層から出力を定義する際にかけられる重みである。 残り 1 つの重みについて説明せよ。
解答
中間層から次の中間層に対する重み
連鎖律の原理を使い、dz/dx を求めよ。
$ z=t^2$
$t=x+y$
解答
$ dz/dt = 2t$
$\frac{dt}{dx} = \frac{dz}{dt} \frac{dt}{dx} = 2t *1 = 2(x+y)$
下図を y1 を数式で表せ
$x・s_0:s_1・w_{in}・w・w_{out}$を用いる
※バイアスは任意の文字で定義せよ
※中間層の出力にシグモイド関数 g(x)を作用させよ。
解答
$ z1 = sigmoid(S_0 w + x_1 w{(in)} + b)$
$ y1= sigmoid(z_1 W{(out)} + c)$
シグモイド関数を微分した時、入力値が 0 の時に最大値 をとる。その値として正しいものを選択肢から選べ。
(1)0.15 (2)0.25 (3)0.35 (4)0.45
解答
(2)
以下の文章を LSTM に入力し空欄に当てはまる単語を予測したいとする。 文中の「とても」という言葉は空欄の予測において なくなっても影響を及ぼさないと考えられる。 このような場合、どのゲートが作用すると考えられるか。
「映画おもしろかったね。ところで、とてもお腹が空いたから何か__。」
解答
忘却ゲート
LSTM と CEC が抱える課題について、それぞれ簡潔に述べよ。
解答
LSTM
パラメータ数が多く、計算負荷がかかる。
CEC
勾配が 1 で渡され続け重みがなくなる
学習という概念が損なわれる
LSTM と GRU の違いを簡潔に述べよ。
解答
GRU よりも、LSTM のほうパラメータ数が多い
下記の選択肢から、seq2seq について説明しているものを選べ。
(1)時刻に関して順方向と逆方向の RNN を構成し、それら 2 つの中間層表現を特徴量として利用 するものである。
(2)RNN を用いた Encoder-Decoder モデルの一種であり、機械翻訳などのモデルに使われる。
(3)構文木などの木構造に対して、隣接単語から表現ベクトル(フレーズ)を作るという演算を再 帰的に行い(重みは共通)、文全体の表現ベクトルを得るニューラルネットワークである。
(4)RNN の一種であり、単純な RNN において問題となる勾配消失問題を CEC とゲートの概念を 導入することで解決したものである。
解答
(2)
(1)双方向 RNN
(2)seq2seq
(3)RNN
(4)LSTM
seq2seq と HRED、HRED と VHRED の違いを簡潔に述べよ。
解答
ses2seq
一問一答しかできない
HRED
文脈に即して回答ができる
VHRED
文脈に即して回答ができて、多様がある回答ができる
VAE に関する下記の説明文中の空欄に当てはまる言葉を答えよ。
自己符号化器の潜 在変数に____を導入したもの。
解答
確率分布
RNN と word2vec、seq2seq と Attention の違いを簡潔に述べよ。
解答
RNN と word2vec
RNN と比較して word2vec は現実的なリソース量で計算できるようになった
seq2se1 と seq2se1+Attention
seq2se1 は固定長のものしか学習できなかったものに対し
seq2se1+Attention は長い文章の翻訳が成り立つ
演習結果
考察
simple_RNN 中間層のノード数を 64 あたりが精度がよくなる。
学習率を大きくすると勾配爆発が起きる
シグモイド関数を ReLU 関数に変更すると、勾配爆発が発生し、全く学習が進まない
tanh に変更すると学習が進まない
隠れ層を多くすると精度は向上するが、学習の初期は誤差が大きい、
重みを大きくすると学習の初期は誤差が少ないが、そこから勾配爆発してしまう
既存の問題がありそれを解決するために新しいモデルが作られていき学習の精度が高まっていっている