概要
こんにちは、chikaといいます。
今回は論文探しするなかで耳にした学習の種類、手法についてメモしようと思います。
状況に応じて追記するかもです。
調べたい内容を「キーワード」にまとめてます。
CV領域
Object Detection(物体検出)
物体の位置+物体の種類を検知するタスク
「この画像のこの部分に人が移ってるよ!」っていうのを教えてくれる
物体が複数映ってても検出してくれたりする。
キーワード:YOLO、R-CNN、SSD、DETR(Transformer)
Classification(画像分類)
画像に映ってる物体の種類を分類するタスク
2クラス分類だったり、多クラス分類だったりする
キーワード:VGG、ResNet、DenseNet、MobileNet、BCE(損失関数)
Semantic Segmentation(領域分割)
画像のピクセル単位でラベル付けをして学習するタスク
わかりやすい説明 → セマンティックセグメンテーション - MATLAB & Simulink
Continual Learning(継続学習)
分類問題とかで、犬猫を分類できるようになったモデルに対して、鳥を学習させると犬猫の特徴を忘れてしまう現象が発生する(これを破壊的忘却という)
いままで学習した内容を忘れずに学習することを目的としている
Contrastive Learning(対照学習)
自己教師あり学習の1つ
特徴量が似たデータは近くなるように、似てないデータは遠くなるように学習する
参考→【初学者向け】対照学習(Contrastive Learning)とは?
キーワード:SimCLR、PCL、BYOL
Few-shot Learning(FSL)
良い精度のモデルを作ろうと思ったら膨大な学習データが必要となるが、これは少ない画像データで効率的に学習する手法
他にもzero-shotも存在する
参考→Few-shot Learning : 少ない画像データで学習する【前編】
用語:Augmentation(データ拡張)
データを変形させたり、増やしたりする前処理のこと。
画像を切り取ってみたり、別の画像貼ってみたり、画像を重ねてみたり…
諸事情でモデルのアーキテクチャをあまり変えたくない場合はここを頑張ってる
参考→データ拡張 (Data Augmentation) [画像向け]
余談と感想
Transformerといったアーキテクチャを画像分類に用いたVision Transformerが出現するなど、自然言語処理分野で使用されたアーキテクチャをコンピュータビジョンの分野で使うこともある。
なるべくトレンドは追っておきたい。