###自分用メモ
####強化学習
長期的に報酬を最大限できるように環境のなかで行動を選択できるエージェントを作ることを目標とする機械学習の一分野
→行動の結果として与えられる利益(報酬)をもとに、行動を決定する原理を改善していく仕組み。
環境について事前に完璧な知識があれば、最適な行動を予測し決定することは可能。→不完全な知識を元に行動しながら、データを収集。最適な行動を見つけていく。
過去のデータで、ベストとされる行動のみを常に取り続ければ他にもっとベストな行動を見つけることはできない。
→探索が足りない。
↕ トレードオフの関係性
未知の行動のみを常に取り続ければ、過去の経験が活かせない。
→利用が足りない状態。
- 強化学習と通常の教師あり、教師なし学習との違い
結論:目標が違う。
・教師なし、あり学習では、データに含まれるパターンを見つけ出すおよびそのデータから予測することが目標
・強化学習では、優れた方策を見つけることが目標。
- 歴史
・冬の時代があったが、計算速度の進展により大規模な状態を保つ場合の、強化学習を可能としつつある。
・関数近似法と、Q学習を組み合わせる手法の登場。
Q学習:行動価値関数を、行動する毎に更新することにより学習を進める方法
関数近似法:価値関数や方策関数を関数近似する手法のこと
- 価値関数
価値を表す関数としては、状態価値関数と行動価値関数の2種類がある。
ある状態の価値に注目する場合は。状態価値関数と価値を組み合わせた価値に注目する場合は、行動価値関数
- 方策関数
方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの確率を与える関数のこと。
- 関数の関係
方策関数:π(s)=a
エージェントは方策に基づいて行動する。
π(s,a):VやQを基にどういう行動をとるか
→経験を活かす or チェレンジするなど
V(s):状態関数
Q(s,a):状態+行動関数
→ゴールまで今の方策を続けたときの報酬の予測値が得られる。
→やり続けたら最終的にどうなるか。
- 方策勾配法について
方策反復法
方策をモデル化して最適化する手法
方策勾配法
\theta^{(t+1)} = \theta^{(t)}+ \epsilon \nabla J(\theta)
Jは方策の良さ
定義方法
・平均報酬
・割引報酬
上記の定義に対応して、行動価値関数:Q(s,a)の定義を行い、方策勾配定理が成り立つ。
\nabla _{\theta}J(\theta) = \mathbb{E}_{\pi_{\theta}}[\nabla_{\theta}log{\pi_{\theta}}(a|s)Q^{\pi}(s,a))]
####AlphaGo
- Alpha Go Lee
value net(価値関数)とpolicy net(方策関数)がある。
どちらもニューラルネットワーク
Alpha Go LeeのPolicyNet
Alpha Go LeeのValueNet
- Alpha Goの学習は以下のステップで行われる。
1.教師あり学習によるRollOutPolicyとPolicyNetの学習
2.強化学習によるPolicyNetの学習
3.強化学習によるValueNetの学習
- Alpha Go Zero
LeeとZeroの違い
1.教師あり学習を一切行わず、強化学習のみで作成
2.特徴入力からヒューリスティックな要素を排除し、石の配置のみにした。
3.PolicyNetとValueNetを一つのネットワークに統合した。
4.Residual Netを導入した。
5.モンテカルロ木探索からRollOutシュミレーションをなくした。
Residual Networkはネットワークにショートカット構造を追加して、勾配の爆発、消失を抑える効果を狙ったもの。
Residual Networkを使うことにより、100層を超えるネットワークでの安定した学習が可能となった。
- Residual Networkの派生形
1.Residual Blockの工夫
Bottleneck
1×1カーネルのConvolutionを利用し、1層目で次元削減を行って3層目で次元を復元する3層構造にし、2層のものと比べて計算量はほぼ同じだが一層増やせるメリットがあるとしたもの。
PreActivation
ResidualBlockの並びをBatchNorm→ReLU→Convolution→BatchNorm→ReLU→Convolution→Addとすることにより性能が上昇したとするもの。
2.Network構造の工夫
WideResnet
ConvolutionのFilter数をk倍にしたResnet。1倍→k倍×ブロック→2*k倍yブロックと段階的に幅を増やしていくのが一般的。Filter数を増やすことにより、浅い層数でも深い層数のものと同等以上の精度となり、またGPUをより効率的に使用できるため学習も早い。
PyramidNet
WildresNetで幅が広がった直後の層に過度の負荷がかかり精度を落とす原因となっているとし、段階的にではなく、各層でFilter数を増やしていくResNet。
####データ並列化
- 分散深層学習とは
複数の計算資源(ワーカー)を使用し、並列的にニューラルネットワークを構成することで、効率の良い学習を行いたい。
データ並列化、モデル並列化、GPUによる高速技術は不可欠である。
- データ並列化
親モデルを各ワーカーに小モデルとしてコピー。データを分割し、各ワーカーごとに計算させる。
同期型
非同期型
####モデル並列化
親モデルを各ワーカーに分割し、それぞれのモデルを学習させる。すべてのデータで学習が終わった後で、一つのモデルに復元。
モデルが大きい時はモデル並列化を、データが大きい時はデータ並列化をするとよい。
モデルのパラメータ数が多いほど、スピードアップの効率も向上する。
#####GPUによる高速化
-
GPGPU
元々の使用目的であるグラフィック以外の用途で使用されるGPUの総称 -
CPU
高性能なコアが少数
複雑で連続的な処理が得意 -
GPU
比較的低性能なコアが多数
簡単な並列処理が得意
ニューラルネットの学習は単純な行列演算が多いので、高速化が可能
####量子化
通常のパラメータの64bit浮動小数点を31bitなど下位の精度に落とすことでメモリと演算処理の削減を行う。
-
省メモリ化
ニューロンの重みを浮動小数点のbit数を少なくし、有効桁数を下げることで、ニューロンのメモリサイズを小さくすることができ、多くのメモリを消費するモデルのメモリ使用量を抑えることができる。 -
利点
計算の高速化
省メモリ化 -
欠点
精度の低下
64bitは倍精度
32bitは単精度
16bitは半精度
####蒸留
規模の大きなモデルの知識を使い軽量なモデルの作成を行う。
学習済みの精度の高いモデルの知識を軽量なモデルへ継承させる。
- 教師モデルと生徒モデル
蒸留は教師モデルと生徒モデルの2つで構成される。
-
教師モデル
予測精度の高い、複雑なモデルやアンサンブルされたモデル -
生徒モデル
教師モデルをもとに作られる軽量なモデル
教師モデルの重みを固定し生徒モデルの重みを更新していく。
誤差は教師モデルと生徒モデルのそれぞれの誤差を使い重みを更新していく。
- 利点
蒸留によって少ない学習回数でより精度の良いモデルを作成していく。
####プルーニング
モデルの精度に寄与が少ないニューロンを削減することでモデルの軽量化、高速化が見込まれる。
寄与の少ないニューロンの削減を行いモデルの圧縮を行うことで高速化に計算を行うことができる。
- ニューロンの削減
重みが閾値以下の場合ニューロンを削減し、再学習を行う。
下記の例は重みが0.1以下のニューロンを削減した。
####MobileNet
ディープラーニングモデルの軽量化・高速化・高精度化を実現(その名の通りモバイルなネットワーク)
畳み込み演算に工夫がされている。
一般的な場合は計算量が多い。
- Depthwise convolution
・入力マップのチャンネルごとに畳み込みを実施
・出力マップをそれらと結合(入力マップのチャンネル数と同じになる)
・通常の畳み込みカーネルはすべての層にかかっていることを考えると計算量が大幅に削減可能
・各層ごとの畳み込みなので層間の関係性は全く考慮されない。通常はPW畳み込みとセットで使うことで解決
- Pointwise convolution
・1x1 convとも呼ばれる。
・入力マップのポイントごとに畳み込みを実施
・出力マップ(チャンネル数)はフィルタ数分だけ作成可能(任意のサイズが指定可能)
Depthwise Separable Convolutionという手法を用いて計算量を削減している。通常の畳み込みが空間方向とチャンネル方向の計算を同時に行うのに対して、Depthwise Separable ConvlutionではそれらをDepthwise Convolution とPointwise Convolutionと呼ばれる演算によって個別に行う。
Depthwise Convolutionはチャンネル毎に空間方向へ畳み込む。すなわち、チャンネル毎にDk×Dk×1のサイズのフィルターをそれぞれ用いて計算を行うため、その計算量はHxWxCxKxKとなる。
次にDepthwise Convolutionの出力をPointwise Convolutionによってチャンネル方向に畳み込む。すなわち、出力チャンネル毎に1x1xmサイズのフィルターをそれぞれ用いて計算を行うため、計算量はHxWxCxMになる。
####DenceNet
出力層に前の層の入力を足し合わせる。
層間の情報の伝達を最大にするために全ての同特徴量サイズの層を結合する。
Batch正規化
ReLu関数による変換
3x3畳み込み層による処理
入力特徴マップのチャンネル数がl x kだった場合、出力は(l+1)xkとなる。
- Transition Layer
CNNでは中間層でチャンネルサイズを変更し、特徴マップのサイズを変更し、ダウンサンプリングを行うため、Transition Layerと呼ばれる層でDence blockをつなぐ。
- DenceNetとResNetの違い
DenceBlockでは前方の各層からの出力全てが後方の層への入力として用いられる。
RessidualBlockでは前1層の入力のみ後方の層へ入力
DenceBlockでは成長率(growth rate)と呼ばれるパラメータが存在する。
####BatchNorm
レイヤー間を流れるデータ分布を、ミニバッチ単位で平均が0・分散が1になるように正規化
Batch Normalizationはニューラルネットワークにおいて学習時間の短縮や初期値への依存低減、過学習の抑制など効果がある。
・問題点
Batch sizeが小さい条件下では、学習が収束しないことがあり、代わりにLayer Normalizationなどの正規化手法が使われることが多い。
その他の正規化
・LayerNorm
それぞれのsampleの全てのpixelsが同一分布に従うよう正規化
・Instance norm
さらにchannelも同一分布に従うように正規化
HxWxCのsampleがN個あった場合に、N個の同一チャンネルが正規化の単位
####LayerNorm
N個のsampleのうち一つに注目。HxWxCのすべてのpixelが正規化の単位。
入力データや重み行列に対して、以下の操作を施しても、出力が変わらないことが知られている。
入力データのスケールに関してロバスト
重み行列のスケールやシフトに関してロバスト
####Instance Norm
各sampleの各チャンネルをごとに正規化
####WaveNet
生の音声波形を生成する深層学習モデル
時系列データに対して畳み込み(Dilated convolution)を適用する。
Dialated convolution
- 層が深くなるにつれて畳み込むリンクを離す
- 受容野を簡単に増やすことができるという利点がある。
大きな利点は単純なConvolution Layerと比べてパラメータ数に対する受容野が広いことである。
####Seq2seq
系列(sequence)を入力として、系列を出力するもの
・Encoder-Decoderモデルとも呼ばれる。
・入力系列がencode(内部状態に変換)され、内部状態からDecode(系列に変換)する。
言語モデルを2つ連結した形になっている。
・RNNの理解
・言語モデルの理解
RNNとは
系列データを読み込むために再帰的に動作するNN
系列情報を舐めて内部状態に変換できる。
言語モデルとは
・単語の並びに対して尤度(それがどれだけ起こり得るのか)、すなわち文章として自然かを確率で評価する。
時刻t-1までの情報で、時刻tの事後確率を求めることができる。
→これで同時確率が計算できる。
RNNx言語モデルは各地点で次にどの単語がくれば自然(事後確率最大)かを出力できる。
seq2seqはEncoderからDecoderに渡される内部状態ベクトルが鍵
Decoder側の構造は言語モデルRNNとほぼ同じだが隠れ状態の初期値にEncoder側の内部状態を受け取る。
Decoderのoutput側に正解を当てれば教師あり学習がEnd2endで行える。
####Transformer
ニューラル機械翻訳の問題点
長さに弱い
- Attention
翻訳先の各単語を選択する際に、翻訳元の文中の各単語の隠れ状態を利用
attentionは辞書オブジェクト
query(検索クエリ)に一致するkeyを索引し、対応するvalueを取り出す操作であると見做すことができる。これは辞書オブジェクトの機能と同じである。
Transformer主要モジュール
注意機構には二種類ある
Self-Attentionが肝
Scaled dot product attention
全単語に関するAttentionをまとめて計算する。
Multi-Head attention
重みパラメータの異なる8個のヘッドを使用
Add&
Position Encoding
RNNを用いないので単語列の語順情報を追加する必要がある。
####物体検知
#####広義の物体認識タスク
classification(分類)、Semantic segmentation(意味領域分割),Object Detection(物体検知), Instance Segmentation(個体領域分割)
#####代表的データセット
VOC12,ILSVRC17,MS COCO18,OICOD18などがある。
いずれも物体検知コンペティションで用いられたデータセット
BOX/画像が大になればなるほど部分的な重なり等も見られる日常生活のコンテキストに近い。
目的に応じたBox/画像の選択を!
クラス数が大きいことは嬉しいのか?
######分類問題の評価指標
Confusion Matrix
物体検出においてバウンディングボックスはThresholdの設定とconfidenceの値によって変化する。
物体検出においてはクラスラベルだけでなく、物体位置の予測精度も評価したい。
Precision/Recallの計算例
Average Precisionとは
FPS :Flames per Second
一秒間あたりに検出する数
SSD :single shot dectentation
ベースネットワークはVGG16として、ネットワークアーキテクチャ
が構成される。
特徴マップから出力
SSDのデフォルトボックス数
####セグメンテーション
Semantic segmentationの肝
正しく物体を認識するためには受容野にある程度の大きさが必要である。
受容野を広げる典型:
1.深いCov.層 2.プーリング(ストライド)
いかに元の解像度にアップサンプリングすることが鍵
Deconvolution/Transposed convolution
Dilated Convolution