まだビルド版です。
問題を解きながら修正加筆していきます。
G検定の参考書を一周してから読んでください。
たぶん、心が折れます・・・(読んだ後でも心折れてます・・・)
画像認識・画像分類系
| モデル |
分類 |
覚えるポイント |
キーワード |
| AlexNet |
画像分類 |
2012年、画像認識ブームの火付け役 |
ImageNet / ILSVRC / CNN / ReLU |
| VGG |
画像分類 |
3×3畳み込みを深く積むシンプル構造 |
VGG16 / VGG19 / 深いCNN |
| GoogLeNet / Inception |
画像分類 |
Inceptionモジュール。複数サイズの畳み込みを並列 |
Google / Inception |
| ResNet |
画像分類 |
スキップ結合・残差学習で深い層を学習可能にした |
残差学習 / skip connection |
| Wide ResNet |
画像分類 |
ResNetを「深く」ではなく「広く」した改良版 |
ResNet改良/ 幅を広げる |
| DenseNet |
画像分類 |
各層を前の全層と密に接続 |
Dense connection / 特徴再利用 |
| SENet |
画像分類 |
チャネルごとの重要度を学習 |
Squeeze-and-Excitation |
| EfficientNet |
画像分類 |
精度と計算量のバランスがよい |
Compound Scaling |
| MobileNet |
軽量画像分類 |
スマホ・エッジ向け軽量CNN |
Depthwise Separable Convolution |
| MnasNet |
軽量画像分類 |
NASで設計されたモバイル向けモデル |
NAS / モバイル |
| Vision Transformer / ViT |
画像分類 |
Transformerを画像に応用。画像をパッチに分ける |
Transformer / パッチ |
物体検出系
| モデル |
分類 |
覚えるポイント |
キーワード |
| R-CNN |
物体検出 |
候補領域を出してから分類する系統の元祖 |
Region Proposal |
| Fast R-CNN |
物体検出 |
R-CNNを高速化 |
RoI Pooling |
| Faster R-CNN |
物体検出 |
候補領域生成もネットワーク化 |
RPN |
| YOLO |
物体検出 |
画像を一度だけ見て高速検出 |
You Only Look Once / リアルタイム |
| SSD |
物体検出 |
YOLOと同じく高速な1段階検出 |
Single Shot Detector |
| FPN |
物体検出補助 |
複数スケールの特徴を扱う |
Feature Pyramid Network |
セグメンテーション系
| モデル |
分類 |
覚えるポイント |
キーワード |
| FCN |
セマンティックセグメンテーション |
全結合層を畳み込み層に置き換え、ピクセル単位分類 |
Fully Convolutional Network |
| U-Net |
セグメンテーション |
U字型構造。医用画像で有名 |
encoder-decoder / skip connection |
| SegNet |
セグメンテーション |
エンコーダ・デコーダ型 |
画素単位分類 |
| PSPNet |
セグメンテーション |
広い文脈情報を使う |
Pyramid Scene Parsing |
| DeepLab |
セグメンテーション |
Atrous Convolution / Dilated Convolution が重要 |
セマンティックセグメンテーション |
| Mask R-CNN |
インスタンスセグメンテーション |
Faster R-CNNにマスク出力を追加 |
物体検出+領域分割 |
姿勢推定・その他の画像認識
| モデル・手法 |
分類 |
覚えるポイント |
キーワード |
| OpenPose |
姿勢推定 |
人の関節点を推定する |
骨格推定 / キーポイント |
| NAS |
モデル設計手法 |
モデルそのものというより、ネットワーク構造を自動探索する手法 |
Neural Architecture Search |
| 一般物体認識 |
タスク |
画像中の物体を認識する総称 |
画像認識 |
| 物体識別 |
タスク |
画像が何かを分類する |
classification |
| 物体検出 |
タスク |
物体の種類と位置を検出 |
bounding box |
| セマンティックセグメンテーション |
タスク |
ピクセル単位でクラス分類 |
同じクラスの個体は区別しない |
| インスタンスセグメンテーション |
タスク |
同じクラスの個体も別々に識別 |
Mask R-CNN |
| パノプティックセグメンテーション |
タスク |
セマンティック+インスタンスの統合 |
画像全体の詳細理解 |
| 姿勢推定 |
タスク |
人体の関節・骨格を推定 |
OpenPose |
画像生成・画像変換系
| モデル |
分類 |
覚えるポイント |
キーワード |
| GAN |
生成モデル |
生成器と識別器を競わせる |
敵対的生成ネットワーク |
| DCGAN |
画像生成 |
CNNを使ったGAN |
Deep Convolutional GAN |
| CycleGAN |
画像変換 |
対応ペアなしで画像変換 |
馬→シマウマ / 教師なし変換 |
| Pix2Pix |
画像変換 |
対応ペアありの画像変換 |
条件付きGAN / paired data |
| Diffusion Model |
画像生成 |
ノイズ除去を繰り返して画像生成 |
拡散モデル / Stable Diffusion |
| NeRF |
3D生成・復元 |
複数画像から3D空間を表現 |
Neural Radiance Fields |
画像×テキスト・マルチモーダル系
| モデル・タスク |
分類 |
覚えるポイント |
キーワード |
| CLIP |
画像×テキスト理解 |
画像とテキストを同じベクトル空間で扱う |
zero-shot / 画像検索 / 分類 |
| DALL·E |
テキストから画像生成 |
テキスト入力から画像生成 |
Text-To-Image |
| Flamingo |
マルチモーダル |
画像+テキストを扱う少数例対応モデル |
few-shot / VQA |
| Image Captioning |
タスク |
画像の内容を文章で説明 |
画像→文章 |
| Text-To-Image |
タスク |
文章から画像を生成 |
文章→画像 |
| Visual Question Answering |
タスク |
画像を見て質問に答える |
VQA |
| Unified-IO |
マルチモーダル |
画像・テキストなどを統合的に扱う |
統合モデル |
チートシート
ChatGPTに心が骨折したって言ったら作ってくれました・・・
| 問題文のキーワード |
答え候補 |
| 畳み込み、プーリング、画像特徴抽出 |
CNN |
| 2012年、ImageNet、ブレイクスルー |
AlexNet |
| 3×3畳み込み、シンプル、深い |
VGG |
| Inceptionモジュール、Google |
GoogLeNet |
| 残差学習、スキップ結合 |
ResNet |
| チャネルごとの重要度 |
SENet |
| 軽量、スマホ、エッジ |
MobileNet / MnasNet |
| 精度と計算量のバランス |
EfficientNet |
| Transformerを画像に応用 |
Vision Transformer |
| バウンディングボックス、物体の位置 |
R-CNN系 / YOLO / SSD |
| 一度だけ見る、高速検出 |
YOLO |
| ピクセル単位、領域分割 |
FCN / U-Net / SegNet / PSPNet / DeepLab |
| 医用画像、U字型 |
U-Net |
| 物体ごとにマスク |
Mask R-CNN |
| 関節点、骨格 |
OpenPose |
| 生成器、識別器、敵対的学習 |
GAN |
| ペア画像ありの画像変換 |
Pix2Pix |
| ペア画像なしの画像変換 |
CycleGAN |
| ノイズ除去、少しずつ画像生成 |
Diffusion Model |
| 画像とテキスト、ゼロショット |
CLIP |
| テキストから画像生成 |
DALL·E / Text-To-Image |
不足、誤字脱字、その他誤りがあればご教示ください🙇♂️