More than 3 years have passed since last update.

深層学習　day3

Last updated at 2021-05-16Posted at 2021-05-07

1. RNN

CNNでは画像などのデータを扱ったが、RNN(Recurrent Neural Network)では文章などの時系列データを扱うことができる。例えば、ある文章を順にRNNに入力し、次に現れる単語を推定するといったタスクを行うことができる。
RNNの特徴は、RNNの出力を再度RNNに入力することで過去のデータを記憶しながら、次の出力値を推定する点である。以下の図で、x、hがそれぞれRNNの入力、出力である。

以下の図は、RNNを時間に沿って展開したものである。この展開したニューラルネットワークは通常のニューラルネットワーク同様に誤差逆伝播法により学習を行うことができる。

RNNの箱の中身は以下。

数式で表すと下記になる。

$\boldsymbol{m} = \boldsymbol{h_{prev} W_h} $
$\boldsymbol{p} = \boldsymbol{x W_x}$
$\boldsymbol{k} = \boldsymbol{m} + \boldsymbol{p}$
$\boldsymbol{t} = \boldsymbol{k} + \boldsymbol{b}$
$\boldsymbol{h_{next}} = \tanh (\boldsymbol{t}) $
$\boldsymbol{y_t} = \mathrm{softmax} (\boldsymbol{h_{next} W_{out}} + \boldsymbol{c})$

2. BPTT

RNNでの誤差逆伝播法をBPTT(BackPropagation Trough Time)と呼ぶ。$\boldsymbol{h}_{prev}, \boldsymbol{W}_h, \boldsymbol{W}_x, \boldsymbol{b}$についての偏微分は下記の通り。これらを用いて勾配更新を行う。

\begin{align}
\frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{h}_{prev}} &= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times \frac{\partial \boldsymbol{t}}{\partial \boldsymbol{k}} \times  \frac{\partial \boldsymbol{k}}{\partial \boldsymbol{m}} \times \frac{\partial \boldsymbol{m}}{\partial \boldsymbol{h}_{prev}} \\
&= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times 1 \times  1 \times  \boldsymbol{W}_h\\
&= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times  \boldsymbol{W}_h
\\
\end{align}

\begin{align}
\frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{W}_h} &= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times \frac{\partial \boldsymbol{t}}{\partial \boldsymbol{k}} \times  \frac{\partial \boldsymbol{k}}{\partial \boldsymbol{m}} \times \frac{\partial \boldsymbol{m}}{\partial \boldsymbol{W}_h} \\
&= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times 1 \times  1 \times  \boldsymbol{h}_{prev}\\
&= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times  \boldsymbol{h}_{prev}
\\
\end{align}

\begin{align}
\frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{W}_x} &= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times \frac{\partial \boldsymbol{t}}{\partial \boldsymbol{k}} \times  \frac{\partial \boldsymbol{k}}{\partial \boldsymbol{p}} \times \frac{\partial \boldsymbol{p}}{\partial \boldsymbol{W}_x} \\
&= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times 1 \times  1 \times  \boldsymbol{x}\\
&= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times  \boldsymbol{x}
\\
\end{align}

\begin{align}

\frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{b}} &= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times \frac{\partial \boldsymbol{t}}{\partial \boldsymbol{b}} \\
&= \frac{\partial \boldsymbol{h}_{next}}{\partial \boldsymbol{t}} \times 1 \\
&= (1-\tanh^2 (\boldsymbol{t}))
\\
\end{align}

RNNの問題点

RNNでは時間経過が大きくなった場合に、時間方向に層が深くなるため、誤差逆伝播において勾配消失または勾配爆発（勾配が指数関数的に増加）が発生しやすくなる。勾配消失の対策としては、微分値が大きくなる活性化関数を利用したり正則化を行う。勾配爆発にはクリッピングなどを行う。

3. LSTM

LSTM(Long Short-Term Memory)では、CEC(記憶セル)を用いることでLSTMにより勾配消失と勾配爆発を防ぐ。LSTMの構造は以下。特徴として、CEC、入力・出力・忘却ゲートを持つ。
入力ゲートでは$x(t)W_i$と$h(t-1)u_i$から$i(t)$を計算する。この$i(t)$により入力$a(t)$の値調整を行う。次にCECでは$i(t)・a(t)$に前回のCECの出力$c(t-1)$に$f(t)$を乗算したものを足し合わせることで、記憶している情報を反映させる。CECには過去の情報が継続して保管されてしまうことを避けるため、忘却ゲートで$f(t)$の値を調整する。出力ゲートは入力ゲートと同様にCECからの出力$g(c(t))$に$o(t)$を乗算し調整を行う。

4. GRU

LSTMは3種類のゲートとCECがあり、重みパラメータが多く計算量が大きい。GRUでは重みパラメータの数を大幅に削減。リセットゲートと更新ゲートが存在。

5. 双方向RNN

未来の情報を加味することで精度を向上させる。機械翻訳などに利用される。

6. Seq2Seq

時系列データを別の時系列データに変換。日本語から英語への機械翻訳など。Seq2SeqはEncoder-Decoderモデルと呼ばれる。EncoderはRNNを利用して、時系列データを隠れ状態ベクトルに変換。隠れ状態ベクトルをDecoderも入力して与えることで別の時系列データを生成。

HRED

過去n-1 個の発話から次の発話を生成する。Seq2seqでは会話の文脈無視で応答がなされたが、HREDでは前の単語の流れに即して応答されるため、より人間らしい文章が生成される。HREDではSeq2SeqにプラスしてContext RNNが用いられる。Context RNNではEncoderのまとめた各文章の系列をまとめて、これまでの会話コンテキスト全体を表すベクトルに変換する。

VHRED

HREDに、VAEの潜在変数の概念を追加したもの。VAEの潜在変数の概念を追加することで解決した構造

オートエンコーダー

教師なし学習の一つ。入力層より中間層のサイズを小さくすることで次元削減を行う。

VAE

通常のオートエンコーダーの場合、何かしら中間層にデータを押し込めているものの、その構造がどのような状態かわからない。VAEは中間層に正規分布N(0,1)を仮定したもの

7. Word2vec

語の表現にはカウントベースによるものと推論ベースによるものの2種類がある。
カウントベースには、与えられたデータを全て用いて計算しなければならず、時間がかかる。
それに対して、推論ベースであれば与えられたデータの一部からから学習が可能で、データを追加して与えて計算させることも可能。
Word2vecは推論ベースの語表現である。

Word2vecには2種類のモデルが存在する。１つはCBoW、もうひとつはSkip-gramである。

CBOWモデルでは、文中の抜けおちた単語の周辺の単語から抜けおちた単語を推定する手法である。

反対に、Skip-gramは、ある単語に隣接する単語を推定する。

CBOW

CBOWは、Continuous Bag Of Wordsの略である。文中の抜けおちた単語の周辺の単語から抜けおちた単語を推定する方法。

CBOW概要
コーパス(学習に用いるテキストデータ)のなかから語彙を取りだして、各単語にIDを振る。
また、単語をone-hot表現(ベクトルの要素のなかで1つだけ1で他が0であるようなベクトル)で表す。これをone-hotベクトルと呼ぶ。one-hotベクトルの長さは、コーパスの語彙数になる。
抜け落ちた単語の前後1つずつから抜け落ちた単語を推定する場合、前後の単語1つずつをone-hotベクトルにして入力層に入力する。2つの単語(one-hotベクトル)に重みをかけて足し合わせて作成した行列に別の重み行列をかけ合わせ、語彙数長のベクトルを作る。このとき、入力にかけあわせた重み行列が各単語の分散表現(単語の意味を捉えたベクトル)になっている。

8. Attention

Seq2Seqは長い文章への対応が難しい。我々が翻訳を行うとき、ある単語に注目して単語の変換を随時行っている。つまり、翻訳先の単語と対応関係にある翻訳元の単語を選び出し、その情報を利用して翻訳を行っている。Attentionでは「入力と出力のどの単語が関連しているのか」の関連度を学習して、それを利用して翻訳を行う。

9. 実装演習

Simple RNN

重みの初期値、学習率、中間層の層数を変化させて結果を確認する。まず基準となるモデルでは最初は誤差が1程度であるが学習が進むに連れて0に近づいていることがわかる。重みの初期値を1 → 0.01に変更すると学習を繰り返しても誤差は減らない。重みが小さく勾配消失が発生しているため、誤差が減らないと考えられる。学習率を0.1 → 0.01に変更しても学習を繰り返すにつれて微減する傾向はあるものの、誤差は十分に小さくならない。学習率が小さく学習が効率的に進まないためだと思われる。中間層の層数を16層 → 160層に変更すると学習が進むにつれて誤差が小さくなるものの、16層の場合と比べると誤差が大きい。層が深すぎることで余計な過去の時系列データまで捉えてしまい、その結果誤差が16層の場合ほどに小さくはならなかったと考えられる。