More than 3 years have passed since last update.

深層学習 day4

Last updated at 2021-06-01Posted at 2021-05-11

1. 強化学習

報酬を最大化するような行動選択を学習。

探索と利用のトレードオフ

過去のデータからベストと考えられる行動のみ取り続けると、より良い行動を見つけることができない。

Q学習
・行動価値関数を、行動する毎に更新することにより学習を進める方法

関数近似法
・価値関数や方策関数を関数近似する手法のこと

価値関数

状態価値関数と行動価値関数の2種類がある。Q学習では行動価値関数を利用する。
状態価値関数は状態sから価値が決定する。一方、行動価値関数は行動aと状態sから価値が決定する。

方策関数

どのような行動をとるか決めるための関数。方策関数の結果に基づき、行動を行う。

方策関数 $\pi(s)=a $
状態価値関数 $V^{\pi}(s)$
行動価値関数 $Q^{\pi}(s, a)$

状態価値関数、行動価値関数はゴールまで今の方策を取り続けた場合の報酬の予測値が得られる。

方策勾配法

$\theta$は重みパラメータを意味する。$J(\theta)$は期待報酬を表す。$\epsilon$は学習率。報酬が大きくなるようにするため、式中で和+を取っている。

上図の$\pi_{\theta}(a|s)Q^{\pi}(s, a)$は、ある行動をとるときの確率$\pi_{\theta}(a|s)$とそのときの報酬$Q^{\pi}(s, a)$を乗算することで、ある行動aをとったときの報酬を表す。これを行動aについて和を取ると、報酬の期待値となる。
複雑な式変形をすると白抜きの式となる。

2. Alfa Go

Alfa Go Lee

PolicyNetで各マスに碁を打つべき確率を計算。ValueNetで19×19の盤面を入力し、局面を-1～1で評価。両方とも畳み込みが用いられる。盤面を色んな方向から評価した情報が入力チャネルとして用いられる。

AlfaGoLeeの学習は以下のステップで行われる。

教師あり学習によるRollOutPolicyとPolicyNetの学習
強化学習によるPolicyNetの学習
強化学習によるValueNetの学習

RolloutPolicyとはPolicyNetに比べ精度は落ちるが、より高速に計算が可能なモデル。

ステップ１の教師あり学習では、棋譜データから3000万局面分の教師を用意し、教師と同じ着手を予測できるよう学習を行った。具体的には、教師が着手した手を1とし残りを0とした19×19次元の配列を教師とし、それを分類問題として学習した。

ステップ2のPolicyNetの強化学習では、PolicyPoolと呼ばれる複数の学習途上にあるPolicyNetが入ったプールからランダムに学習途上のPolicyNetを選択し、選択されたPolicyNetと学習させたいPolicyNetで対局シミュレーションを行い、方策勾配法で学習を行う。

ステップ3のValueNetの強化学習では、PolicyNetを使用して対局シミュレーションを行い、その結果の勝敗を教師として学習する。教師データ作成の手順は

SL PolicyNet(教師あり学習で作成したPolicyNet)でN手まで打つ。
N+1手目の手をランダムに選択し、その手で進めた局面をS（N+1）とする。
S（N+1）からRLPolicyNet（強化学習で作成したPolicyNet）で終局まで打ち、その勝敗報酬をRとする。S(N+1）とRを教師データ対とし、損失関数を平均二乗誤差とし、回帰問題として学習。

モンテカルロ木探索

コンピュータ囲碁ソフトでは現在もっとも有効とされている探索法。他のボードゲームではminmax探索やその派生形のαβ探索を使うことが多いが、盤面の価値や勝率予想値が必要となる。しかし囲碁では盤面の価値や勝率予想値を出すのが困難であるとされてきた。そこで、盤面評価値に頼らず末端評価値、つまり勝敗のみを使って探索を行うことができないか、という発想で生まれた探索法である。囲碁の場合、他のボードゲームと違い最大手数はマスの数でほぼ限定されるため、末端局面に到達しやすい。具体的には、現局面から末端局面までPlayOutと呼ばれるランダムシミュレーションを多数回行い、その勝敗を集計して着手の優劣を決定する。また、該当手のシミュレーション回数が一定数を超えたら、その手を着手したあとの局面をシミュレーション開始局面とするよう、探索木を成長させる。この探索木の成長を行うというのがモンテカルロ木探索の優れているところである。モンテカルロ木探索はこの木の成長を行うことによって、一定条件下において探索結果は最善手を返すということが理論的に証明されている。

Alfa Go Zero

教師あり学習を一切行わず、強化学習のみで作成
特徴入力からヒューリスティックな要素(人間が決めた特徴入力)を排除し、石の配置のみにした
PolicyNetとValueNetを１つのネットワークに統合した
Residual Net（後述）を導入した
モンテカルロ木探索からRollOutシミュレーションをなくした

PolicyNetとValuneNetの入力を同一として、出力を2つにわけている。ResidualBlockが39個連なっている。

ResidualBlock

ネットワークが深くなると勾配消失が起きるので防ぎたい。そこでネットワークにショートカットを追加。ショートカットによりネットワークが複数あることになり、アンサンブル効果がでる。

Alfa Go ZeroのResidualBlockでは以下の工夫が行われている。

3. 軽量化・高速化技術

モデル並列・データ並列・GPUにより、モデルの学習を高速化する。量子化・蒸留・プルーニングにより、モデルを軽量化して処理能力の低い装置でも深層学習モデルを利用できるようにする。

コンピュータの性能向上より、深層学習のモデルの複雑化のほうが早い。複数の計算資源を使用して、並列的に計算を行いたい。

3.1 データ並列

ワーカー＝計算機。ワーカー1：CPU、ワーカー2：GPUといった形で割り当てる。
・親モデルを各ワーカーに子モデルとしてコピー
・データを分割し、各ワーカーごとに計算させる

同期型

同期型のパラメータ更新の流れ。各ワーカーが計算が終わるのを待ち、全ワーカーの勾配が出たところで勾配の平均を計算し、親モデルのパラメータを更新する。更新した親モデルを再度子モデルとして各ワーカーにコピー

非同期型

非同期型のパラメータ更新の流れ。各ワーカーはお互いの計算を待たず、各子モデルごとに更新を行う。学習が終わった子モデルはパラメータサーバにPushされる。新たに学習を始める時は、パラメータサーバからPopしたモデルに対して学習していく。同期型と比べ、非同期型の方が早い。ただ、非同期型は最新のモデルのパラメータを利用できないので、学習が不安定になりやすい。現在は同期型の方が精度が良いことが多いので、主流となっている。

3.2 モデル並列

・親モデルを各ワーカーに分割し、それぞれのモデルを学習させる。全てのデータで学習が終わった後で、一つのモデルに復元。
・モデルが大きい時はモデル並列化を、データが大きい時はデータ並列化をすると良い。

層の間ででわけるだけでなく下記のように分割することも可能＝分岐した部分のニューラルネットだけ取り出して学習することが可能。

モデルのパラメータ数が多いほど、スピードアップの効率も向上する。

※Speedupは1台の計算機での時間を1としている

3.3 GPU

GPGPU (General-purpose on GPU)

・元々の使用目的であるグラフィック以外の用途で使用されるGPUの総称

CPU

・高性能なコアが少数•複雑で連続的な処理が得意

GPU

・比較的低性能なコアが多数
・簡単な並列処理が得意
・ニューラルネットの学習は単純な行列演算が多いので、高速化が可能

開発環境

CUDA

・GPU上で並列コンピューティングを行うためのプラットフォーム
・NVIDIA社が開発しているGPUのみで使用可能。
・Deep Learning用に提供されているので、使いやすい

OpenCL (あまり使われてない)

・オープンな並列コンピューティングのプラットフォーム
・NVIDIA社以外の会社(Intel, AMD, ARMなど)のGPUからでも使用可能。
・Deep Learning用の計算に特化しているわけではない。
・Deep Learningフレームワーク(Tensorflow, Pytorch)内で実装されているので、使用する際は指定すれば良い

3.4 量子化

深層学習では重みの保存に大量のメモリを消費。パラメータの64 bit 浮動小数点を32 bit など下位の精度に落とすことでメモリと演算処理の削減を行う。利点は計算の高速化、省メモリ化。一方、欠点は精度の低下。

倍精度(64bit)と比べ、単精度(32bit)は倍の計算速度になる。単精度は小数の有効桁数が小さくなるが、64bitでも32ビットでも精度はほぼ変わらないことが知られている。

半精度(16bit)の場合には、整数に割り当てる領域を増やして大きな値を表現できるようにしたりする。例：bfloat16

3.5 蒸留

学習済みの精度の高いモデルの知識を軽量なモデルへ継承。蒸留は教師モデルと生徒モデルの2つで構成される。教師モデルは予測精度の高い、複雑なモデルやアンサンブルされたモデル。生徒モデルは教師モデルをもとに作られる軽量なモデル。

教師モデルと生徒モデルの出力の誤差をもとに、生徒モデルの重みを更新。

通常学習時(赤)よりも蒸留(青)の方が精度が高い。

3.6 プルーニング

ネットワークが大きいと大量のパラメータが存在するが、すべてのパラメータが計算に寄与しているわけではない。そこで精度に寄与の少ないパラメータを削減し、モデルを軽量化する。

重みが閾値以下であればパラメータを削除して再学習する。下記の例は重みが1以下のパラメータを削除。

4. 応用技術

4.1 Mobile Net

軽量化のため、Mobile Netでは畳み込みの演算を工夫している。

Depthwise Convolution

・フィルタ数が1つだけ
・赤青緑を合成した入力は除く
以上により、計算量を削減

Pointwise Convolution

・フィルタサイズが1×1

MobileNet

Depthwise Convolution、Pointwise Convolutionの順で実施。計算量を削減。

4.2 Dense Net

全体像

Dense Block概要

Dense Block1の3つ目の●を表したのが下図。●を1つ経るごとに出力がKチャネルずつ増えていく。
・Kをネットワークのgrowth rateと呼ぶ
・Kが大きくなるほどネットワークが大きくなるため、小さな整数に設定するのがよい

Transition Layer
Dense Blockでチャネルが追加されるため、Transition layerでチャネル数を減らしてもとに戻す。
Dense Block2ではDense Block1での入力と同じチャネル数になる。

ResNetでもスキップコネクションがあった。DenseBlockでは前方の各層からの出力全てが後方の層への入力として用いられるのに対し、RessidualBlockでは前1層の入力のみ後方の層へ入力。DenseBlockではGrowth Rateと呼ばれるハイパーパラメータが存在する。
DenseBlock

スキップコネクション(ResNet)

4.3 Batch Norm

レイヤー間を流れるデータの分布を、ミニバッチ単位で平均が0・分散が1になるように正規化。学習時間の短縮や初期値への依存低減、過学習の抑制など効果がある。Batch Normの問題点として、Batch Sizeが小さい条件下では学習が収束しないことがあり、代わりにLayer Normalizationなどの正規化手法が使われることが多い
ミニバッチがやっかい。CPUではメモリが潤沢にあるのでミニバッチが大きくても大丈夫だが、GPUではメモリが足りずミニバッチサイズを小さくしなければいけないため、実際には使いづらい。

下図の箱は、6チャネルの画像が6枚分(バッチサイズ)並んでいるところを表している。青い部分が正規化を行う箇所。
Batch Norm
ある1つのチャネルで、ミニバッチのすべての画像に対して、平均0・分散1となるように正規化
Batch Normだけミニバッチのサイズが小さい場合には正規化の効果が薄れる➡使い勝手わるい
Layer Norm
ある1つの画像における全てのピクセルが平均0・分散1となるように正規化
入力データを倍にしたりしてもLayer Normによって出力が変わらない➡Layer Norm使用により、入力データが倍になるといったスケールに対して堅牢(ロバスト)
Instance Norm
ある1つの画像におけるあるチャネルの全ピクセルが平均0・分散1となるように正規化（各々の画像の各チャネルで正規化）
コントラストの正規化に寄与。

4.4 Wave Net

音声などの時系列データでも畳み込みを適用できる。既存の時系列データ畳み込みでは(下図左)、入力層の5つの青丸から中間層1層目の4つの白丸になるよう畳み込みを行い、中間層を経るごとに畳み込み演算を行っている。Wave Netでの畳み込みでは(下図右)、飛ばし飛ばしに畳み込みを行うことで時間的に幅広いデータを用いながら、計算負荷を減らすことができる。これをDilated Causal Convolutionと呼ぶ。

5. Transformer

TransformerはSeq2Seq(Encoder-Decoder)とAttentionからなる。

5.1 Seq2Seq

・系列(Sequence)を入力として系列を出力するもの
・Encoder-Decoderモデルとも呼ばれる
・入力系列がEncode(内部状態に変換)され、内部状態からDecode(系列に変換)する
・実応用上も、入力・出力共に系列情報なものは多い
例：翻訳 (英語→日本語)、音声認識 (波形→テキスト)、チャットボット (テキスト→テキスト)

RNN

再帰的ニューラルネットワークのこと。以下のような再帰的な構造を持つ。

上のRNNを展開すると、以下のようになる。言語の系列を入力して、最後に出力されるベクトルを内部状態ベクトルという。内部状態ベクトルは言語の系列情報を圧縮したベクトルと考えられる。

言語モデル

・単語の並びに対して尤度(それがどれだけ起こり得るか)、
・すなわち、文章として自然かを確率で評価する
例) - You say goodbye → 0.092 (自然)
　　- You say good die → 0.00000032 (不自然)

時刻t-1までの情報で、時刻tの事後確率を求めることが目標
→これで同時確率が計算できる

Seq2Seq

RNNのモデルを2つ並べたモデル。1つ目のRNNはEncoderとして働き、言語の入力系列から内部状態ベクトルを作る。2つ目はDecoderとして働き、内部状態ベクトルから言語の出力系列を作る。

5.2 Transofomer

文章が長くなった時に、何に注意を払うべきで、何に注意を払わないべきかを決定する学習機構が必要になる。
それがAttention。リカレントネットワークからの出力$h_j$に対して、$\alpha_{ij}$で重み付けする。

Transformer構造

大きくEncoderとDecoderに分かれる。
主要なモジュールは4つ。RNNを使っていないため文字の位置情報を保存できない。なので、①で単語の位置を追加。②でAttentionがかかって、③で全結合。次はDecoderで、未来の系列も含めすべて入力してしまうため、④未来の単語をマスクする。

Self attentionでは入力だけで、どの単語に注目を払うべきか決めてしまう。

バナナからクエリ$q_1$と、Key $k_1$、Value $v_1$を作る。$q_1$と$k_1$の内積を求める。同様に$k_2$、$k_3$、$v_2$、$v_3$から$q_1 ・v_2$と$q_1 ・v_3$を求め、バナナという単語の内部状態ベクトル$Z_1 = 0.3 v_1 + 0.5 v_2 + 0.2 v_3$を計算する。

DecoderでMulti-Headh attentionが2つ使われているのは、Source Target AttentionとSelf-Attentionの両方が使われているため。

6. 物体検知とSS

物体検知の概要

データセット

代表的なデータセットで精度評価を行う。データセットごとの特性を理解して、学習の評価を正しく行えるようにする。

評価指標

クラスラベル判定の閾値を変化させることで、検出結果が変化。

クラスラベルだけでなく、物体位置の予測精度も評価する場合には、IoUを利用する。
真に正しい画像領域と機械学習モデルが提案した画像領域の結合を分母とし、双方の重なりあった部分を分子とする。
真に正しい画像領域と機械学習モデルが提案した画像領域があまり一致していない ➡ 結合領域が大きくなり分母が大きくなる & 重なりあう領域が小さくなり分子が小さくなる ⇒ 精度が低い