E試験のシラバスとその概要をメモしたものです。
各サイトや生成AIに聞いたもののツギハギです。
シラバスは2024#2に準拠しています
本記事は4.深層学習の応用 のうち
- 画像認識
- 物体認識
- セマンティックセグメンテーション
についてとなります。
試験範囲外部分は割愛しています。
画像認識、物体検出、セグメンテーション
画像認識:その画像は何か
物体検出:画像中のどこに何の物体が移っているかをバウンディングボックスで検出
セグメンテーション:画像中のどこに何の物体が移っているかを境界線で検出
画像認識
歴史的に
画像分類がILSVRCという大会でAlexNetがDeepLearningによる画像分類として従来のものに大きなスコア差をつけた。
その後GoogleNet,VGG,ResNetと進化を遂げていった。
(出所:https://medium.com/analytics-vidhya/cnns-architectures-lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5)
2024#2の試験範囲はAlexNet,VGG,GoogleNetは外れ、ResNetから。
ResNet(Residual Netework)
従来から層を増やせば表現力があがることはわかっていたが、勾配消失問題が発生するというジレンマがあった。
Residual blockという手法を使って解決した。
残差接続(skip-connection)
ResNetの中核となる仕組み。入力に対して中間層を適用した出力と、中間層をスキップして入力をそのまま渡したものを、その層の出力とする。
該当の中間層への入力をx,出力を$F(X)$としたとき、スキップ接続を含んだ中間層の出力は$H(x)=F(x)+x$と入力が加算された形となる。
(出所:https://dx-consultant-fast-evolving.com/resnet/)
逆伝播の際は
$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial H} \frac{\partial H}{\partial x}$
スキップ接続部分の$\frac{\partial H}{\partial x}$は
$\frac{\partial H}{\partial x} = \frac{\partial (F(x)+x)}{\partial x}= \frac{\partial F}{\partial x} +1$
元の式に当てはめると。
$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial H} (\frac{\partial F}{\partial x} +1) = \frac{\partial L}{\partial H}\frac{\partial F}{\partial x} + \frac{\partial L}{\partial H}$
となり、伝播されてきた勾配$\frac{\partial L}{\partial H}$が加算されていることによって勾配が消失することが防がれる。
残差ブロック:Residual Block、ボトルネック構造
幾つかの畳み込み層にスキップ接続を組みこんだ構造
左がPlaneアーキテクチャ、右がボトルネックアーキテクチャ
(出所:https://arxiv.org/pdf/1512.03385v1)
ボトルネック層はレイヤ方向の畳み込みを行う。
ボトルネック層のメリットは計算量の削減と表現力の向上など。
https://qiita.com/hokutoh/items/4b6aa3483757a655c559#depthwise-separable-convolution
WideResNet
ResNetの弱点
・「特徴再利用の減少」という問題。少数のユニットのみが学習に有用な表現を学習し、他の多くのユニットが最終的な結果にあまり貢献しない。
・学習時の演算負荷が大きい
⇒層を浅く、フィルタを多くしたことで解決を試みたもの
出所:https://zero2one.jp/ai-word/wide-resnet/#google_vignette
出所:https://arxiv.org/pdf/1605.07146
https://deepsquare.jp/2021/08/wideresnet/ で要約
・計算量が少なくて済む
・Dropout層で過学習が抑えられる
・3x3の畳み込み層を2層、幅が10のものが良い結果を出している。
Vision Transformer
CNNを用いずTransfomerのみを利用した画像認識モデル
出所:https://arxiv.org/pdf/2010.11929
大きく言うと画像をベクトルかしてTransformerに流し込んだもの
- 画像をパッチに分割し、flatten化してベクトル化
- [CLS] トークンの追加
入力トークンの先頭に追加される特別なトークン。最終的に、このトークンの内部表現が、画像全体の分類や予測に使われます。
このトークンの最終的な出力が、画像に対するクラスラベル(例えば「猫」や「犬」など)を決定するために利用される - Positional Embedding の加算
パッチの順序を認識するため、各トークンに位置情報を示す Positional Embedding を加算
‐ Transformerによる処理
self-attentionを持つTransformerが、トークン間の関係を学習し、出力トークンを生成。この出力の中で [CLS] トークンが最終的な予測に使用される。
以下にて手順がビジュアル化されている。
https://blog.mdturp.ch/posts/2024-04-05-visual_guide_to_vision_transformer.html
以下、上記URLの手順メモ
- 画像分類中のひとつの画像の流れについて見てみる。
- ラベルはいったん忘れる。入力データだけをいったん使う
- $p\times p$の数に画像のパッチを作成する
- 分割したパッチをflattenする
パッチは、$p'= p^2 \times c$の次元のベクトルに平坦化されます。ここで、pはパッチのサイズ、cはチャネル数です。
- パッチ埋め込みの作成
これらの画像パッチ ベクトルは線形変換を使用してエンコードされます。結果のパッチ埋め込みベクトルのサイズは固定dになります。
- すべてのパッチを埋め込む
画像パッチを固定サイズのベクトルに埋め込んだので、サイズnxdの配列が残ります。ここでnは画像パッチの数、dはパッチ埋め込みのサイズです。
- 分類トークン(CLS token)の追加
モデルを効果的にトレーニングするために、 分類トークン (cls トークン) と呼ばれる追加のベクトルによってパッチ埋め込みの配列を拡張します。このベクトルはネットワークの学習可能なパラメータであり、ランダムに初期化されます。注: cls トークンは 1 つだけなので、すべてのデータ ポイントに同じベクトルを追加します。
- Position embeddingベクトルを追加する
現在、パッチ埋め込みには位置情報が関連付けられていません。これを修正するために、学習可能なランダムに初期化された Position embedding ベクトル をすべてのパッチ埋め込みに追加します。また、このようなPosition embeddingベクトルを分類トークンにも追加します。
- Transformer Input
位置埋め込みベクトルが追加された後、サイズ(n+1) xdの配列が残ります。これは、次のステップでより詳細に説明されるTransformerの入力になります。
- Transformer
10-1.Transformer: QKVの作成
トランスフォーマーの入力パッチ埋め込みベクトルは、複数の大きなベクトルに線形に埋め込まれます。これらの新しいベクトルは、3 つの同じサイズの部分に分割されます。Q - Query Vector, the K - Key Vector and the V - Value Vector。これらすべてのベクトルの (n+1) が得られます。
10-2. Transformer: Attention Scoreの計算
Attention Score:A を計算するために、すべてのQ とすべてK を掛け合わせます。
10-3. Transformer: Attention Score Matrix
これでAttention Score Matrix:A ができたので、各行の合計が 1 になるように、すべての行にsoftmax
関数を適用します。
10-4. Transformer: Aggregated Contextual Informationの計算
最初のパッチ埋め込みベクトルのAggregated Contextual Informationを計算します。注目行列の最初の行に注目します。そして、そのエントリを値ベクトル Vの重みとして使用します。結果は、最初の画像パッチ埋め込みのAggregated Contextual Informationベクトルです。
10-5. Transformer: パッチごとのAggregated Contextual Information
ここで、このプロセスを注意スコア マトリックスのすべての行に対して繰り返します。その結果、N+1 個のAggregated Contextual Informationベクトルが生成されます。パッチごとに 1 つ、分類トークンごとに 1 つです。この手順で、最初のAttention headが終了します。
10-6. Transformer: Multi-Head Attention
ここでは、Multi-Head Attentionを扱っているため、異なる QKV マッピングを使用して、ステップ10.1 - 10-5のプロセス全体を再度繰り返します。説明設定では 2 つのヘッドを想定していますが、通常、VIT にはさらに多くのヘッドがあります。最終的には、Aggregated Contextual Informationベクトルが複数生成されます。
10-7. Transformer: 最後のAttention Layerステップ
これらのheadは積み重ねられ、パッチ埋め込みと同じサイズdのベクトルにマッピングされます。
10-8. Transformer: Attention Layerの出力
前のステップでAttention Layerが終了し、入力として使用したものとまったく同じサイズの埋め込みと同じ量が残ります。
10-9. Transformer: Residual connections
Transformerは残差接続を多用します。これは、前のレイヤーの入力を現在のレイヤーの出力に追加することを意味します。これもこれから実行します。
10-10.Transformer: Residual connection Result
The addition results in vectors of the same size.
10-11. Transformer: Feed Forward Network
これらの出力は、非線形活性化関数を持つフィードフォワードニューラルネットワークに送られる。
10-12. Transformer: Final Result
Transformerのステップの後には、別の残りの接続がありますが、ここでは簡潔にするために省略します。そして、最後のステップでTransformer層が終了しました。最終的に、Transformerは入力と同じサイズの出力を生成しました。
- Transformerを繰り返す
Transformerの計算手順 10.1 ~ 10.12 を、Transformerに対して複数回 (たとえば 6 回) 繰り返します。
- 出力されたCLS tokenの識別
CLS Tokenの出力を特定することである。このベクトルはVision Transformerの最終ステップで使用されます。 - Final Step: 分類されたクラスの確率予測
最後のステップでは、このCLSトークン出力と別の全連結ニューラルネットワークを使って、入力画像の分類確率を予測します。
- Vision Transformerの訓練
予測されたクラスの確率と真のクラスラベルを比較する標準的なクロスエントロピー損失関数を用いてVision Transformerを学習する。モデルはバックプロパゲーションと勾配降下を用いて学習され、損失関数を最小化するようにモデルパラメータを更新する。
物体検出
R-CNN,Fast-R-CNN,Faster-R-CNN Mask R-CNNと言った形で進化してきた
出所:https://lilianweng.github.io/posts/2017-12-31-object-recognition-part-3/
R-CNN,Fast-R-CNNは試験範囲外なので簡単に
- R-CNN:領域探索と画像分類を組み合わせて物体検出する。
- Fast R-CNN:R-CNNを改良し計算時間を改善したもの
領域探索は入力画像に対して領域の候補( RoI :Region of Interest, 候補領域)を数1000個抽出する。
ROIの選出には Selective Search という類似する領域をグルーピングしていくことで候補領域を選出する手法がとられている。
ただし、認識制度が低かったり学習・認識共に計算量が多くなり遅いという欠点があった。
精度検証
mAP(mean Average Precision)という指標が使われる。
mAPはIOU、Precision、Recall、Precision Recall Curve、APを元に計算される
IOU
予測と正解領域の$\cfrac{予測領域\bigcap正解領域}{予測領域\bigcup正解領域}$
つまり$\cfrac{あっている部分}{合計面積}$ 1に近いほど精度が良い
https://carbgem.com/plus/wp-object-detection/
Precision(適合率)とRecall(再現率)
IOUが閾値以上のものとTP,閾値以下のものをFNとみなして
$Precistion=\cfrac{TP}{TP+FP}=\cfrac{IOUが閾値以上のもの}{モデルが検出した全ての領域数}$
$Recall=\cfrac{TP}{TP+FN}=\cfrac{IOUが閾値以上のもの}{正解の検出対象数}$
2ステージ検出
前述のように領域検出と画像認識の2ステージで構成されている
- R-CNN
- Fast R-CNN
この二つは領域探索と画像分類という二つの学習がそれぞれ個別で機能(非End-to-End学習)しており一つのネットワークとなっていない。次項のFaster R-CNN以降はEnd-to-End学習となっている
出所:https://cvml-expertguide.net/terms/dl/optimization/end-to-end-leaning/
FasterR-CNN
物体検出にRPN(Region Proposal Network)というネットワークを使用し、一貫したネットワーク(End-to-Endネットワーク)を実現したもの。
出所:https://cvml-expertguide.net/terms/dl/object-detection/faster-r-cnn/
- RPN [前半ステージ]
- アンカーボックス方式で,領域提案のバウンディングボックス群を検出.
- Fast R-CNN [後半ステージ] :
- RPNで計算した,全画像の特徴マップを,入力特徴に用いる.
- ROI Poolingした領域特徴を入力に,以下の2タスクを並列に実施:
- 識別ヘッド[タスク1]: 領域提案をクラス識別.
- 回帰ヘッド[タスク2]: 領域提案を残差回帰して洗練.
アンカーボックス方式
物体検出の中心点(アンカー)を決め、アンカーに対してK個のボックスを用意する
- アンカーボックス内に「物体が有る or 物体が無い」の2クラス識別.
- アンカーボックスから領域提案への,位置(x,y)・サイズ(w,h)の修正量を回帰.
RoIプーリング
検出領域は縦横比がそれぞれ異なる可変長サイズになるが、可変長入力に対して、固定サイズ(たとえば7×7など)の特徴マップを得ることができるプーリング。
下記のようにRoI(関心領域)が可変サイズに対して、Max Poolingを行っている。
https://deepsense.ai/region-of-interest-pooling-explained/
Mask R-CNN
Faster R-CNNにインスタンスセグメンテーションのタスクを足したもの。
変更点として
- RoI PoolingがRoI Alignに
- Mask branchというネットワークが追加されている。領域提案中の物体であるピクセルを得るための層になる
(出所:https://jonathan-hui.medium.com/image-segmentation-with-mask-r-cnn-ebe6d793272 より一部編集)
ROI Align
RoI Poolingではピクセル単位のズレがでる。バウンディングボックスであればさして影響はなかったが、セグメンテーションの場合ピクセルのズレが結果に影響するのでズレを解消するための手法。
提案領域はグリッドに対して浮動小数点位置にとられる。(グリッドに対して中途半端な位置に取る)
各区画で4つのポイントが取られ、各ポイントを線形補完し新しいグリッドをつくる。
YOLO(You Only Look Once)
Faster R-CNNまでは2ステージ(物体検出と画像分類を別々)で行っていたのに対し、1ステージ検出(物体検出と画像分類を同時)に行うことで、高い処理速度を出したアーキテクチャ。
物体検出を分類問題ではなく、回帰問題として扱っている。
- 任意の数SxSに分割したgird cellを用意
- 分割した各grid cellに対して、B個のバウンディングボックスとそのconfidence scoreとを出力する。
バウンディングボックスは中心座標値(x, y)、幅/高さ(w, h)を持つ。confidence scoreはバウンディングボックス内に物体を含んでいるかどうかの信頼度となる。 - また、各grid cell単位で、そのクラスである確率C(条件付き確率)を推定する
- バウンディングボックスと各grid cellのクラス確率を結合
https://arxiv.org/pdf/1506.02640
これらのバウンディングボックスには重複領域が多くあるため、IOU等を元にした信頼度スコアの高いバウ
ンディングボックスを基準に NMS (Non-Maximum Suppression:最大でない物を取り除く)で選別する。
SSD(Single Shot MultiBox Detector)
特徴マップに対して デフォルトボックス を配置することでバウンディングボックスを推定する。
学習の仮定で回帰で推定したオフセットベクトルにより、ボックスの位置x,yとサイズw,hの矩形を補正する。
出所:https://qiita.com/xu1718191411/items/442e58f24e6608b6173c
ハードネガティブマイニング
SSDでは、デフォルトボックスの中には正解ラベルと一致しない「負の例」も多数存在します。
全ての負の例を使って学習すると効率が悪いため、特にモデルが誤って正と予測してしまう「ハードネガティブ」を選び出して再トレーニングします。
このアプローチにより、モデルがより難しい負の例に対しても正確に物体を検出できるようになります。
出所:https://qiita.com/TKsaku/items/df4b3f1e90e93c401eaf
FCOS(Fully Convolutional One-Stage)
特徴として
- アンカーフリー(Anchor-Free)
- Feature Pyramid Network(FPN)
- センターネス(Center-ness)
アンカーフリー
アンカーボックス方式だとIOUを基準にネガ/ポジを区別しているため、ほとんどのアン
カーボックスがネガティブサンプルとして認識されるため、ポジティブサンプル(物体)との不均衡が発生する。
また、学習時にサイズ・アスペクト比・数などの事前設定で精度が大きく変動することがある。
アンカー(点)に対してアンカーボックスを複数設定するのではなく、
点に対する上下左右(l,t,r,b)距離を使用することで課題を解決した。
出所:https://arxiv.org/pdf/1904.01355
- positive sample
フィーチャマップの各点が、1つの物体の正解ラベルのバウンディングボックス内にある - ambiguous sample(あいまいサンプル)
フィーチャマップの各点が、複数の物体の正解ラベルのバウンディングボックス内にある(バウンディングボックスは複数物体の共通部分) - negative sample
物体なし(背景)
Feature Pyramid Network(FPN)
高レベル(ピラミッドの頂点)のフィーチャマップをアップサンプリングして、低レベルの
フィーチャマップに加える事で、低レベルのフィーチャマップの予測精度が強化される
https://arxiv.org/pdf/1904.01355
H × Wはfeature mapsの大きさ、‘/s’(s = 8, 16, ..., 128) は入力画像からのdownsampling ratio
P3-P7は最終的な予測に使用されるfeature level
https://www.fastpath.one/blog/feature-pyramid-network-fpn
高レベル:大きい物体の検出を担当
低レベル:小さい物体の検出を担当
センターネス(Center-ness)
物体中心付近を改善する機構。
Ground Truthの上下左右の距離r*,l*,t*,b*を損失に加えることにより、物体中心の特徴量マップにおける損失を増加させる。これにより、より物体中央に近い部分が優先して改善される。
https://arxiv.org/pdf/1904.01355
赤、青、その他の色はそれぞれ1~0の値を示す。Centernessは下記式によって計算され、位置が物体の中心からずれるにつれて1から0に減衰する。テスト時には、ネットワークによって予測されたCenternessは分類スコアと乗算されるため、オブジェクトの中心から離れた位置によって予測された低品質なバウンディングボックスを重み付けすることができる。
$Centerness=\sqrt{\cfrac{\min(l*,r*)\cdot\min(t*,b*)}{\max(l*,r*)\cdot\max(t*,b*)}}$ (一致すると$\cfrac{max}{max}$の部分が1になる)
セマンティックセグメンテーション
セグメンテーションとはピクセル単位の認識を行うタスク
(b)セマンティックセグメンテーションは、画像中の全ての画素に対して、クラスラベルを予測する。
この時車が複数台映っていた場合は、それぞれの区別はない。
(c)インスタンスセグメンテーションは、画像中の全ての物体に対して、クラスラベルを予測し、一意のIDを付与する。セマンティックセグメンテーションとの主な違いは、重なりのある物体を別々に検出したり、空や道路などの定まった形を持たない物体などはクラスラベルの予測を行わない。例えば、1つの画像に複数の車が映っている場合、それぞれの車を別々の物体と認識する。
(d)パノプティックセグメンテーションは、上の2つのセグメンテーションを組み合わせたタスクとなる。画像中の全ての画素に対して、クラスラベルを予測し、一意のIDを付与する。
FCN(Fully Convolutional Network)
https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf
FCNは,VGGNetなどの初期のアーキテークチャを元に,出力付近の全結合層も含めて,(プーリング層やReLU活性化関数以外は) ,全ての層を畳み込み層(および転置畳み込み)で済ませる設計のCNNである.これにより,出力画像の全ての画素位置で,クラス識別による複数チャンネルのラベル予測を行う「密な予測(dense prediction)」を行うことができる.
このような,全結合層を無くして「出力層付近(ヘッド)も,全て畳み込み層で済ませるCNN」を,全結合が終盤に備わっているCNNと区別する意味で,「Fully Convolutional なニューラルネットワーク」(あるいは「Fully convolutional な CNN = FCN」)と呼ぶ.
https://cvml-expertguide.net/terms/dl/semantic-segmentation/fcn/
https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf
VGG-16の全結合層をGlobal Average Poolingと1×1 Convolutionに置き換えることによって、クラス分類の結果が2次元ヒートマップとして出力されるようになる。
アップサンプリング、逆畳み込み/転置畳み込み
プーリングによって出力されるヒートマップは小さくなるため、小さい画像のアップサンプリングを行う。
転置畳み込み (Transposed Convolution)は,2D畳み込み層と反対のアップサンプリング畳み込み操作を行う層である [Long et al., 2014].(順)畳み込み層の逆操作であるので,各論文では Deconvolution (逆畳み込み) とも呼ばれる.FCN,U-Net/FPN型の,砂時計型画像Encoder-Decoder内のDecoder部分や,深層生成モデルの画像Generatorなどにおいて,特徴マップの空間サイズ拡大(アップサンプリング)を,効率的に行う用途で,転置畳み込み層がよく用いられる.
https://www.reddit.com/r/learnmachinelearning/comments/wuxgn4/transposed_convolutions_for_smart_upsampling_of/
U-Net
畳み込み層とプーリング層で構成されるアーキテクチャ。
- 学習に使う画像の数が少なくてもセグメンテーションの精度がよい
- 学習および学習後の処理が高速
出所:https://arxiv.org/pdf/1505.04597 より一部編集
U字の下りの部分でダウンサンプリングを行い、上りの部分でアップサンプリングを行っていく。
図中の灰色矢印部分のスキップコネクション と呼ばれるEncoder側の「局所情報」と「空間位置情報」を,対応するDecoder側へ直接コピーして受け渡し,Decode時も使用する構造になっている。