G検定対策ノート：画像関連モデル一覧表

Posted at 2026-05-03

まだビルド版です。
問題を解きながら修正加筆していきます。

G検定の参考書を一周してから読んでください。
たぶん、心が折れます・・・（読んだ後でも心折れてます・・・）

モデル	分類	覚えるポイント	キーワード
AlexNet	画像分類	2012年、画像認識ブームの火付け役	ImageNet / ILSVRC / CNN / ReLU
VGG	画像分類	3×3畳み込みを深く積むシンプル構造	VGG16 / VGG19 / 深いCNN
GoogLeNet / Inception	画像分類	Inceptionモジュール。複数サイズの畳み込みを並列	Google / Inception
ResNet	画像分類	スキップ結合・残差学習で深い層を学習可能にした	残差学習 / skip connection
Wide ResNet	画像分類	ResNetを「深く」ではなく「広く」した改良版	ResNet改良/ 幅を広げる
DenseNet	画像分類	各層を前の全層と密に接続	Dense connection / 特徴再利用
SENet	画像分類	チャネルごとの重要度を学習	Squeeze-and-Excitation
EfficientNet	画像分類	精度と計算量のバランスがよい	Compound Scaling
MobileNet	軽量画像分類	スマホ・エッジ向け軽量CNN	Depthwise Separable Convolution
MnasNet	軽量画像分類	NASで設計されたモバイル向けモデル	NAS / モバイル
Vision Transformer / ViT	画像分類	Transformerを画像に応用。画像をパッチに分ける	Transformer / パッチ

モデル	分類	覚えるポイント	キーワード
R-CNN	物体検出	候補領域を出してから分類する系統の元祖	Region Proposal
Fast R-CNN	物体検出	R-CNNを高速化	RoI Pooling
Faster R-CNN	物体検出	候補領域生成もネットワーク化	RPN
YOLO	物体検出	画像を一度だけ見て高速検出	You Only Look Once / リアルタイム
SSD	物体検出	YOLOと同じく高速な1段階検出	Single Shot Detector
FPN	物体検出補助	複数スケールの特徴を扱う	Feature Pyramid Network

モデル	分類	覚えるポイント	キーワード
FCN	セマンティックセグメンテーション	全結合層を畳み込み層に置き換え、ピクセル単位分類	Fully Convolutional Network
U-Net	セグメンテーション	U字型構造。医用画像で有名	encoder-decoder / skip connection
SegNet	セグメンテーション	エンコーダ・デコーダ型	画素単位分類
PSPNet	セグメンテーション	広い文脈情報を使う	Pyramid Scene Parsing
DeepLab	セグメンテーション	Atrous Convolution / Dilated Convolution が重要	セマンティックセグメンテーション
Mask R-CNN	インスタンスセグメンテーション	Faster R-CNNにマスク出力を追加	物体検出＋領域分割

モデル・手法	分類	覚えるポイント	キーワード
OpenPose	姿勢推定	人の関節点を推定する	骨格推定 / キーポイント
NAS	モデル設計手法	モデルそのものというより、ネットワーク構造を自動探索する手法	Neural Architecture Search
一般物体認識	タスク	画像中の物体を認識する総称	画像認識
物体識別	タスク	画像が何かを分類する	classification
物体検出	タスク	物体の種類と位置を検出	bounding box
セマンティックセグメンテーション	タスク	ピクセル単位でクラス分類	同じクラスの個体は区別しない
インスタンスセグメンテーション	タスク	同じクラスの個体も別々に識別	Mask R-CNN
パノプティックセグメンテーション	タスク	セマンティック＋インスタンスの統合	画像全体の詳細理解
姿勢推定	タスク	人体の関節・骨格を推定	OpenPose

モデル	分類	覚えるポイント	キーワード
GAN	生成モデル	生成器と識別器を競わせる	敵対的生成ネットワーク
DCGAN	画像生成	CNNを使ったGAN	Deep Convolutional GAN
CycleGAN	画像変換	対応ペアなしで画像変換	馬→シマウマ / 教師なし変換
Pix2Pix	画像変換	対応ペアありの画像変換	条件付きGAN / paired data
Diffusion Model	画像生成	ノイズ除去を繰り返して画像生成	拡散モデル / Stable Diffusion
NeRF	3D生成・復元	複数画像から3D空間を表現	Neural Radiance Fields

モデル・タスク	分類	覚えるポイント	キーワード
CLIP	画像×テキスト理解	画像とテキストを同じベクトル空間で扱う	zero-shot / 画像検索 / 分類
DALL·E	テキストから画像生成	テキスト入力から画像生成	Text-To-Image
Flamingo	マルチモーダル	画像＋テキストを扱う少数例対応モデル	few-shot / VQA
Image Captioning	タスク	画像の内容を文章で説明	画像→文章
Text-To-Image	タスク	文章から画像を生成	文章→画像
Visual Question Answering	タスク	画像を見て質問に答える	VQA
Unified-IO	マルチモーダル	画像・テキストなどを統合的に扱う	統合モデル

ChatGPTに心が骨折したって言ったら作ってくれました・・・

問題文のキーワード	答え候補
畳み込み、プーリング、画像特徴抽出	CNN
2012年、ImageNet、ブレイクスルー	AlexNet
3×3畳み込み、シンプル、深い	VGG
Inceptionモジュール、Google	GoogLeNet
残差学習、スキップ結合	ResNet
チャネルごとの重要度	SENet
軽量、スマホ、エッジ	MobileNet / MnasNet
精度と計算量のバランス	EfficientNet
Transformerを画像に応用	Vision Transformer
バウンディングボックス、物体の位置	R-CNN系 / YOLO / SSD
一度だけ見る、高速検出	YOLO
ピクセル単位、領域分割	FCN / U-Net / SegNet / PSPNet / DeepLab
医用画像、U字型	U-Net
物体ごとにマスク	Mask R-CNN
関節点、骨格	OpenPose
生成器、識別器、敵対的学習	GAN
ペア画像ありの画像変換	Pix2Pix
ペア画像なしの画像変換	CycleGAN
ノイズ除去、少しずつ画像生成	Diffusion Model
画像とテキスト、ゼロショット	CLIP
テキストから画像生成	DALL·E / Text-To-Image

不足、誤字脱字、その他誤りがあればご教示ください🙇‍♂️