【文系合格者が図解】G検定「物体検出」攻略｜R-CNN・YOLO・SSDの違いを一気に整理

Posted at 2026-06-02

title: 【文系合格者が図解】G検定「物体検出」攻略｜R-CNN・YOLO・SSDの違いを一気に整理
tags: G検定 AI ディープラーニング JDLA 資格

はじめに

こんにちは。2026年1月のG検定に合格した、文系出身のエンジニアです。

G検定の勉強をしていて、「物体検出」の分野でつまずいた方は多いのではないでしょうか？ R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD…似たような名前のモデルが次々と出てきて、何が何だか分からなくなりますよね。

私も最初は「全部同じに見える…」と絶望しかけました。でも、**「2段階か1段階か」**という軸で整理したら、一気にスッキリ理解できたんです。

この記事では、文系の私が実際にG検定で出題されたポイントを中心に、物体検出の主要モデルを分かりやすく整理します。

そもそも「物体検出」とは？

画像認識にはいくつかの種類があります。

タスク	やること	出力
画像分類	画像全体が「何か」を判定	ラベル（例：猫）
物体検出	画像の「どこに何が」あるか検出	バウンディングボックス＋ラベル
セマンティックセグメンテーション	ピクセル単位でクラス分類	ピクセルごとのラベル

物体検出は、画像の中にある物体の**位置（どこに）と種類（何が）**を同時に特定するタスクです。自動運転で歩行者を検出したり、工場の製造ラインで不良品を見つけたりと、実用的な応用が多い分野です。

2段階 vs 1段階 — これが整理のカギ

物体検出のモデルは、大きく2つのアプローチに分かれます。G検定ではこの分類が頻出です。

2段階（Two-stage）モデル

まず「物体がありそうな領域」を提案する（Region Proposal）
その領域を分類する

代表例：R-CNNファミリー

→ 精度は高いが、処理が遅い

1段階（One-stage）モデル

領域提案と分類を同時に行う

代表例：YOLO、SSD

→ 処理が速いが、精度はやや劣る（※最新版では差が縮まっています）

R-CNNファミリーの進化

R-CNNは段階的に改良されてきました。G検定では各モデルの違いが問われます。

R-CNN（2014年）

画像から約2000個の領域候補を抽出（Selective Search）
各領域を個別にCNNで特徴抽出
問題点：2000回もCNNを回すので非常に遅い

Fast R-CNN（2015年）

画像全体を1回だけCNNに通して特徴マップを作成
特徴マップ上で領域候補に対応する部分を切り出す（RoI Pooling）
改善点：CNNの処理が1回で済むので高速化

Faster R-CNN（2015年）

領域候補の抽出もニューラルネットで行う（Region Proposal Network: RPN）
Selective Searchが不要になり、エンドツーエンドで学習可能に
改善点：領域提案自体も学習で最適化される

覚え方のコツ：「R-CNN → Fast → Faster」と進化するにつれて、手作業の部分がニューラルネットに置き換わっていく、と理解するとスッキリします。

YOLOとSSD — 1段階モデルの代表

YOLO（You Only Look Once）

名前の通り、画像を1回見るだけで物体検出を完了します。

画像をグリッドに分割
各グリッドが「バウンディングボックス」と「クラス確率」を同時に予測
特徴：リアルタイム処理が可能なほど高速
弱点：小さい物体や密集した物体の検出が苦手

SSD（Single Shot MultiBox Detector）

YOLOの弱点を改善したモデルです。

マルチスケール特徴マップを使って、異なるサイズの物体を検出
大きい特徴マップで小さい物体、小さい特徴マップで大きい物体を検出
特徴：YOLOより精度が高く、速度もリアルタイム級

G検定で狙われるポイント

実際にG検定を受けた経験から、以下のポイントが出題されやすいと感じました。

頻出ポイント	押さえるべき内容
2段階 vs 1段階の違い	処理の流れ、速度と精度のトレードオフ
R-CNNの進化	各バージョンで何が改善されたか
YOLOの特徴	「1回の推論で完結」という点
SSDのマルチスケール	異なるサイズの物体を検出できる仕組み
Selective Search vs RPN	Faster R-CNNでの改善点
IoU（Intersection over Union）	バウンディングボックスの評価指標

IoUについて補足

物体検出の精度を測る指標としてIoU（Intersection over Union）がよく出題されます。予測したバウンディングボックスと正解のバウンディングボックスの重なり具合を0〜1で表す指標で、1に近いほど精度が高いことを意味します。

文系の私がやった覚え方

正直、モデル名が似すぎていて混乱しました。私は以下のように整理して覚えました。

「レストランの注文」で例えると：

R-CNN：メニューを1品ずつ厨房に確認しに行く（遅い）
Fast R-CNN：メニュー全体を写真に撮って一度に確認、注文だけ個別に（少し速い）
Faster R-CNN：AIが自動でおすすめメニューを提案してくれる（もっと速い）
YOLO：入店した瞬間に全メニューが出てくる（超速い）
SSD：大盛りも小盛りもサイズ別に同時に出てくる（速くて対応力あり）

馬鹿げた例えですが、これで試験本番でもスッと思い出せました。

まとめ

物体検出の分野は、覚えるモデル名が多くて大変に感じますが、ポイントは次の3つです。

2段階か1段階かでまず分類する
R-CNNファミリーは進化の流れ（何が改善されたか）を押さえる
YOLO・SSDは速度と精度のトレードオフを理解する

この3つを軸に整理すれば、試験本番でも迷わず解答できるはずです。