【G検定対策】画像認識の用語が多すぎるので「4つの枠組み」で整理してみた

Posted at 2026-06-29

はじめに

G検定の勉強を進める中で、画像認識の分野はアルゴリズムやモデル名が膨大で、どうしても頭の中が混乱しがちでした。
「YOLOって何だっけ？」「FPNと何が違うの？」とテキストの中で迷子になってしまったため、自分なりに用語を整理するための「引き出し」を作ってみることにしました。

この記事は、私の学習ノートとして、画像認識の用語を 「①タスク」「②モデル」「③手法」「④データ」 という4つの観点で整理した内容をまとめたものです。同じように学習を進めている方の参考になれば嬉しいです。

1. 知識を整理する「4つの枠組み」

用語の暗記に入る前に、まずはこの4つの「引き出し」の概念を作ると、情報の整理がとても楽になることに気づきました。個人的には、料理に例えるとイメージしやすかったです。

枠組み	自分なりの解釈	例え話（料理）
タスク	AIへの依頼内容・目的（何をしてほしいか）	「カレーを作る」という目的
モデル	AIの脳みそ・完成した設計図（具体的な製品名）	「〇〇店特製の圧力鍋カレー」という商品
手法	脳みそを賢くする「道具・テクニック」	「圧力鍋を使う」「具を工夫する」技
データ	AIが読み込む入力情報	カレーの材料（肉、野菜、スパイス）

💡 学習の気づき：「モデル」と「手法」の関係性

テキストを読んでいて一番腑に落ちたのが、「手法」はモデルを形作るための 道具（ツール） であるということです。

モデルが手法を内蔵している： 「小さなものを見逃さない道具（手法：FPN）」を最初から装備している「物体検出AI（モデル：Mask R-CNN）」。
手法を使ってモデルを作る： 「全自動設計ソフト（手法：NAS）」を使って生み出された「高効率な脳みそ（モデル：EfficientNet）」。

このように捉えると、それぞれの用語の立ち位置がスッキリしました。

2. 【タスク】AIへの依頼内容

AIに何をさせて、どんな結果を出してほしいかという「ゴール」の種類としてまとめました。（※「画像認識」はこれら全体の総称として捉えています）

タスク名	AIへの依頼内容（ゴール）
一般物体認識（物体識別）	画像全体を見て「何が写っているか」を分類する。
物体検出	画像内の物体の「位置（四角い枠）」と「種類」を特定する。
セマンティックセグメンテーション	ピクセル単位「種類（クラス）」で塗り分ける（同じ種類の別の個体は区別しない）。
インスタンスセグメンテーション	ピクセル単位「個体（インスタンス）」で塗り分ける（同じ種類でも1つずつ個体を区別する）。
パノプティックセグメンテーション	背景（セマンティック）も個体（インスタンス）も、全ピクセルを完璧に塗り分ける。
姿勢推定	人物の関節位置（キーポイント）を特定して、骨格を当てる。

3. 【モデル】AIの脳みそ（完成品）

タスクを解くために開発された、具体的なネットワーク（製品）名です。「このモデルはどのタスクが得意か」をセットで覚えるようにしています。

画像分類モデル（基本・最新・軽量）

モデル名	脳みその特徴・キーワード
AlexNet	2012年ILSVRC優勝。ディープラーニングブームの火付け役。
VGG	2014年ILSVRC第2位。3×3の小さなフィルタを重ね、層を深くしたシンプルな構造。
GoogLeNet	2014年ILSVRC優勝。「Inceptionモジュール」を導入し、計算効率を追求。
ResNet	2015年ILSVRC優勝。「スキップ結合」を導入。勾配消失を解決し、152層の超深層化を実現。
DenseNet	前方の出力を後方の全層に結合（密結合）。ResNetの進化系の一つ。
SENet	チャンネル間の重要度を学習（SEブロック）して重み付けする。
NASNet	NAS（ニューラルアーキテクチャ探索）を用い、AIが自動で設計したネットワーク構造。
WideResNet	ResNetの「深さ」ではなく「幅（チャンネル数）」を増やしたモデル。
ViT / Swin Transformer	自然言語処理の「Transformer」技術を画像に応用した最新トレンド。
MobileNet	「Depthwise Separable Convolution」で計算量を大幅削減（スマホ向け）。2017年にGoogleが開発。
EfficientNet	深さ・幅・解像度の3要素を最適にスケーリングした高効率モデル。2019年にGoogleが発表
MnasNet	強化学習（NAS）を用いてモバイル向けの構造を自動探索したモデル。

💡 学習の気づき：ResNetは「スキップ結合」の親玉

ResNetが発明した「スキップ結合（ショートカットして情報を伝える仕組み）」は、後のモデルに多大な影響を与えていることに気づきました。

派生: 深さより幅を優先した WideResNet
極致: 結合をめちゃくちゃ増やした DenseNet
応用: 医療用の U-Net でも位置情報を伝えるためにこの仕組みが使われている

「層を深くしすぎると勾配が消えて学習できなくなる」という問題を解決したResNetは、まさに現代の画像認識のスタンダードなんだなと実感しました。

物体検出・セグメンテーション・姿勢推定モデル

モデル名	対応タスク	脳みその特徴・キーワード
Faster R-CNN	物体検出	領域提案（RPN）を内部で行う、高精度な2段階検出モデル。
YOLO / SSD	物体検出	画像を1回見るだけで検出する、リアルタイム性が高い1段階検出モデル。
FCN	セマンティック	全結合層を排除した、画像サイズの制約がないセグメンテーションの元祖。
U-Net	セマンティック	スキップ結合を持つU字型構造。医療画像分野で特に活躍。
SegNet	セマンティック	プーリング時の位置情報を保持し、解像度を復元する。
PSPNet	セマンティック	「Pyramid Pooling Module」で広範囲のコンテキストを考慮。
DeepLab	セマンティック	「Atrous畳み込み」を用い、解像度を維持しつつ広い範囲を見る。
Mask R-CNN	インスタンス	Faster R-CNNを拡張し、ピクセル単位のマスク予測を追加。
OpenPose	姿勢推定	複数人の関節位置をリアルタイムに特定する骨格推定の代名詞。

4. 【手法】脳みそを賢くする「道具」

モデルの性能を引き出したり、モデルを設計したりするためのアイデアやテクニックです。ここがモデル名と混同しやすかった部分です。

手法名	どんな道具（テクニック）か
FPN (Feature Pyramid Network)	大小様々な物体を見逃さないためのレンズ。特徴マップをピラミッド状に構築し、Mask R-CNNなどの検出モデルに組み込まれる。
NAS (Neural Architecture Search)	AIの設計図をAI自身に自動で作らせる設計ソフト。人間ではなく強化学習などを使い、EfficientNetなどの誕生に貢献した。

5. 【データ】入力情報

AIが処理する対象となる画像データの種類です。

データ名	どんな入力情報か
マルチスペクトラム画像	人間の目に見える光（RGB）だけでなく、赤外線などの複数の波長を記録した特殊な画像。農業（生育状況）や衛星調査で活躍する。

おわりに

勉強を進める中で新しい用語に出会ったときは、「これは『目的（タスク）』かな？それとも『製品（モデル）』？それとも『道具（手法）』？」 と、この4つの引き出しに振り分けるようにしたところ、頭の中がかなり整理されました。

「〇〇という タスク を解くために、△△という 手法（道具）を使って作られた、××というモデル 」

今後もこの構造化のパターンを意識して、学習を続けていこうと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up