#はじめに
本記事は、E資格の受験資格の取得を目的としたラビットチャレンジを
受講した際の勉強記録およびレポート記事である。
##Section1)強化学習
■強化学習とは
長期的に報酬を最大化できるように環境の中で行動を選択できるエージェントを作ることを目標とする機械学習の一分野。
⇒行動の結果として与えられる利益(報酬)をもとに、行動を決定する原理を
改善していく仕組み
■強化学習の応用例
□マーケティングの場合
環境:会社の販売促進部
エージェント:プロフィールと購入履歴に基づいてキャンペーンを送る顧客を
決めるソフトウェア
行動:顧客ごとに送信、非送信のふたつの行動を選ぶことになる
報酬:キャンペーンのコストという負の報酬とキャンペーンで生み出されると
推測される売上という正の報酬を受ける
■強化学習と通常の教師あり、教師なし学習との違い
結論:目標が違う
・教師なし、あり学習では、データに含まれるパターンを見つけだすおよび、
そのデータから推測することが目標
・強化学習では、優れた方策を見つけることが目標
■価値関数とは
・価値を表す関数としては、状態価値関数と行動価値関数の2種類がある
ある状態の価値に注目する場合は、状態価値関数
状態と価値を組み合わせた価値に注目する場合は、行動価値関数
■方策関数とは
方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの確率を与える関数のこと
##Section2)Alpha Go
■Alpha Go (Lee) のPolicyNet
出力は19×19マスの着手予想確率が出力される
■Alpha Go (Lee) のValueNet
出力は現局面の勝率を-1~1で表したものが出力される
■Alpha Goの学習
Alpha Goの学習は以下のステップで行われる
1.教師あり学習によるRollOutPolicyとPolicyNetの学習
2.強化学習によるPolicyNetの学習
3.強化学習によるValueNetの学習
■モンテカルロ木探索
コンピュータ囲碁ソフトでは現在もっとも有効とされている探索法。
現局面から末端局面までPlayOutと呼ばれるランダムシミュレーションを多数回行い、その勝敗を集計して着手の優劣を決定する。
Alpha Goのモンテカルロ木探索は選択、評価、バックアップ、成長という4つのステップで構成される。
■AlphaGo (Lee) とAlphaGo Zeroの違い
1.教師あり学習を一切行わず、強化学習のみで作成
2.特徴入力からヒューリンスティックな要素を排除し、石の配置のみにした
3.PolicyNetとValueNetを1つのネットワークに統合した
4.Residual Netを導入した
5.モンテカルロ木探索からRollOutシミュレーションをなくした
■Residual Network
ネットワークにショートカット構造を追加して、勾配の爆発、消失を抑える効果を狙ったもの。
Residual Networkを使うことにより、100層を超えるネットワークでの安定した学習が可能となった。
##Section3)軽量化・高速化技術
■データ並列化
・親モデルを各ワーカーに子モデルとしてコピー
・データを分割し、各ワーカーごとに計算させる
データ並列化は、各モデルのパラメータの合わせ方で、同期型か非同期型か決まる
■データ並列化:同期型
各ワーカーが計算が終わるのを待ち、全ワーカーの勾配が出たところで勾配の平均を計算し、親モデルのパラメータを更新する。
■データ並列化:非同期型
各ワーカーはお互いの計算を待たず、各子モデルごとに更新を行う。
学習が終わった子モデルはパラメータサーバにPushされる。
新たに学習を始めるときは、パラメータサーバからPopしたモデルに対して学習していく。
■同期型と非同期型の比較
・処理のスピードは、お互いのワーカーの計算を待たない非同期型の方が早い。
・非同期型は最新のモデルのパラメータを利用できないので、学習が不安定になりやすい。
・現在は同期型の方が精度が良いことが多いので、主流となっている。
■モデル並列化
・親モデルを各ワーカーに分割し、それぞれのモデルを学習させる。全てのデータで学習が終わった後で、一つのモデルに復元。
・モデルが大きいときはモデル並列化をデータが大きいときはデータ並列化をすると良い。
■モデルの軽量化とは
モデルの精度を維持しつつパラメータや演算回数を低減する手法の総称。
■軽量化の手法
代表的な手法として下記の3つがある
・量子化
・蒸留
・プルーニング
■量子化 (Quantization) とは
ネットワークが大きくなると大量のパラメータが必要になり学習や推論に多くのメモリと演算処理が必要。
⇒通常のパラメータの64bit浮動点少数を32bitなど下位の精度に落とすことでメモリと演算処理の削減を行う。
・利点
計算の高速化
省メモリ化
・欠点
精度の低下
■蒸留 (Distillation) とは
精度の高いモデルはニューロンの規模が大きなモデルになっている。
そのため、推論に多くのメモリと演算処理が必要。
⇒規模の大きなモデルの知識を使い軽量なモデルの作成を行う。
■教師モデルと生徒モデル
・教師モデル
予測精度の高い、複雑なモデルやアンサンブルされたモデル
・生徒モデル
教師モデルをもとに作られる軽量なモデル
教師モデルの重みを固定し生徒モデルの重みを更新していく。
誤差は教師モデルと生徒モデルのそれぞれの誤差を使い重みを更新していく
■プルーニング (Pruning) とは
ネットワークが大きくなると大量のパラメータになるがすべてのニューロンの計算が精度に寄与しているわけではない。
⇒モデルの精度に寄与が少ないニューロンを削除することでモデルの軽量化、高速化が見込まれる。
##Section4)応用技術
■MobileNet
□提案手法
ディープラーニングモデルの軽量化・高速化・高精度化を実現
MobileNETはDepthwise ConvolutionとPointwise Convolutionの組み合わせで軽量化を実現。
■Depthwise Convolution
□仕組み
・入力マップのチャネルごとに畳み込みを実施
・出力マップをそれらと結合 (入力マップのチャネル数と同じになる)
■Pointwise Convolution
□仕組み
・1×1convとも呼ばれる (正確には1×1×c)
・入力マップのポイントごとに畳み込みを実施
・出力マップ (チャンネル数) はフィルタ数分だけ作成可能 (任意のサイズが指定可能)
■DenseNet
□概要
Dense Convolution Network (以下、DenseNet) は、畳込みニューラルネットワーク (以下、CNN) アーキテクチャの一種である。ニューラルネットワークでは層が深くなるにつれて、学習が難しくなるという問題があったが、Residual Network (以下、ResNet) などのCNNアーキテクチャでは前方の層から後方の層へアイデンティティ接続を介してパスを作ることで問題を対処した。DenseBlockと呼ばれるモジュールを用いた、DenseNetもそのようなアーキテクチャの一つである。
■Batch Norm Layer
□Batch Norm
ミニバッチに含まれるsampleの同一チャネルが同一分布に従うよう正規化
□Layer Norm
それぞれのsampleの全てのpixelsが同一分布に従うように正規化
□Instance Norm
channelも同一分布に従うように正規化
■Wavenet
・生の音声波形を生成する深層学習システム
・Pixel CNN (高解像度の画像を精密に生成できる手法) を音声に応用したもの
□Wavenetのメインアイデア
・時系列データに対して畳み込み (Dilated convolution) を適用する
□Dilated convolution
・層が深くなるにつれて畳み込むリンクを離す
・受容野を簡単に増やすことができるという利点がある
##演習
###Seq2Seq
英語から日本語への機械翻訳を行う。
■データの読み込み
英語と日本語を読み込んでいる。
■単語辞書の作成
入力言語の語彙数:3725
出力言語の語彙数:4405
であることが確認された。
■モデルの構築
EncoderとDecoderのRNNの定義をする。
■訓練
□損失関数の定義
ここでLoss以外に学習の進捗を確認するためにモデルの性能を評価する指標として、BLEUを計算する。
モデルの訓練を実行する。
■評価
Bleuスコアは約17.7となった。
下記サイトによると10~19では「主旨を理解するのが困難である」ということ。
よって本結果は、精度がよくないと考えられる。
参考
https://cloud.google.com/translate/automl/docs/evaluate?hl=ja
###Transformerモデル
■Transformerとは
RNNやCNNを使用せず、Attentionのみを用いるSeq2Seqモデル。
並列計算が可能なためRNNに比べて計算が高速な上、Self-Attentionと呼ばれる機構をっ用いることにより、局所的な位置しか参照できないCNNと異なり、系列内の任意の位置の情報を参照することを可能にしている。
データの読み込み~データローダーまで上記Seq2Seqと同様。
■Position-Wise Feed Forward Network
■Masking
TransformerではAttentionに対して2つのマスクを定義します。
一つはkey側の系列のPADトークンに対してAttentionを行わないようにするマスク。
もう一つはDecoder側でSelf Attentionを行う際に、各時刻で未来の情報に対するAttentionを行わないようにするマスク。
BLEUスコアは約26.6となった。
これは下記参考によると「主旨は明白であるが文法上重大なエラーがある」ということ。
よって本結果は、精度が悪いと考えられる。
参考:
https://cloud.google.com/translate/automl/docs/evaluate?hl=ja