はじめに
G検定の勉強を進める中で、画像認識の分野はアルゴリズムやモデル名が膨大で、どうしても頭の中が混乱しがちでした。
「YOLOって何だっけ?」「FPNと何が違うの?」とテキストの中で迷子になってしまったため、自分なりに用語を整理するための「引き出し」を作ってみることにしました。
この記事は、私の学習ノートとして、画像認識の用語を 「①タスク」「②モデル」「③手法」「④データ」 という4つの観点で整理した内容をまとめたものです。同じように学習を進めている方の参考になれば嬉しいです。
1. 知識を整理する「4つの枠組み」
用語の暗記に入る前に、まずはこの4つの「引き出し」の概念を作ると、情報の整理がとても楽になることに気づきました。個人的には、料理に例えるとイメージしやすかったです。
| 枠組み | 自分なりの解釈 | 例え話(料理) |
|---|---|---|
| タスク | AIへの依頼内容・目的(何をしてほしいか) | 「カレーを作る」という目的 |
| モデル | AIの脳みそ・完成した設計図(具体的な製品名) | 「〇〇店特製の圧力鍋カレー」という商品 |
| 手法 | 脳みそを賢くする「道具・テクニック」 | 「圧力鍋を使う」「具を工夫する」技 |
| データ | AIが読み込む入力情報 | カレーの材料(肉、野菜、スパイス) |
💡 学習の気づき:「モデル」と「手法」の関係性
テキストを読んでいて一番腑に落ちたのが、「手法」はモデルを形作るための 道具(ツール) であるということです。
- モデルが手法を内蔵している: 「小さなものを見逃さない道具(手法:FPN)」を最初から装備している「物体検出AI(モデル:Mask R-CNN)」。
- 手法を使ってモデルを作る: 「全自動設計ソフト(手法:NAS)」を使って生み出された「高効率な脳みそ(モデル:EfficientNet)」。
このように捉えると、それぞれの用語の立ち位置がスッキリしました。
2. 【タスク】AIへの依頼内容
AIに何をさせて、どんな結果を出してほしいかという「ゴール」の種類としてまとめました。(※「画像認識」はこれら全体の総称として捉えています)
| タスク名 | AIへの依頼内容(ゴール) |
|---|---|
|
一般物体認識 (物体識別) |
画像全体を見て「何が写っているか」を分類する。 |
| 物体検出 | 画像内の物体の「位置(四角い枠)」と「種類」を特定する。 |
| セマンティック セグメンテーション |
ピクセル単位「種類(クラス)」で塗り分ける(同じ種類の別の個体は区別しない)。 |
| インスタンス セグメンテーション |
ピクセル単位「個体(インスタンス)」で塗り分ける(同じ種類でも1つずつ個体を区別する)。 |
| パノプティック セグメンテーション |
背景(セマンティック)も個体(インスタンス)も、全ピクセルを完璧に塗り分ける。 |
| 姿勢推定 | 人物の関節位置(キーポイント)を特定して、骨格を当てる。 |
3. 【モデル】AIの脳みそ(完成品)
タスクを解くために開発された、具体的なネットワーク(製品)名です。「このモデルはどのタスクが得意か」をセットで覚えるようにしています。
画像分類モデル(基本・最新・軽量)
| モデル名 | 脳みその特徴・キーワード |
|---|---|
| AlexNet | 2012年ILSVRC優勝。ディープラーニングブームの火付け役。 |
| VGG | 2014年ILSVRC第2位。3×3の小さなフィルタを重ね、層を深くしたシンプルな構造。 |
| GoogLeNet | 2014年ILSVRC優勝。「Inceptionモジュール」を導入し、計算効率を追求。 |
| ResNet | 2015年ILSVRC優勝。「スキップ結合」 を導入。勾配消失を解決し、152層の超深層化を実現。 |
| DenseNet | 前方の出力を後方の全層に結合(密結合)。ResNetの進化系の一つ。 |
| SENet | チャンネル間の重要度を学習(SEブロック)して重み付けする。 |
| NASNet | NAS(ニューラルアーキテクチャ探索)を用い、AIが自動で設計したネットワーク構造。 |
| WideResNet | ResNetの「深さ」ではなく「幅(チャンネル数)」を増やしたモデル。 |
| ViT / Swin Transformer | 自然言語処理の「Transformer」技術を画像に応用した最新トレンド。 |
| MobileNet | 「Depthwise Separable Convolution」で計算量を大幅削減(スマホ向け)。2017年にGoogleが開発。 |
| EfficientNet | 深さ・幅・解像度の3要素を最適にスケーリングした高効率モデル。2019年にGoogleが発表 |
| MnasNet | 強化学習(NAS)を用いてモバイル向けの構造を自動探索したモデル。 |
💡 学習の気づき:ResNetは「スキップ結合」の親玉
ResNetが発明した「スキップ結合(ショートカットして情報を伝える仕組み)」は、後のモデルに多大な影響を与えていることに気づきました。
- 派生: 深さより幅を優先した WideResNet
- 極致: 結合をめちゃくちゃ増やした DenseNet
- 応用: 医療用の U-Net でも位置情報を伝えるためにこの仕組みが使われている
「層を深くしすぎると勾配が消えて学習できなくなる」という問題を解決したResNetは、まさに現代の画像認識のスタンダードなんだなと実感しました。
物体検出・セグメンテーション・姿勢推定モデル
| モデル名 | 対応タスク | 脳みその特徴・キーワード |
|---|---|---|
| Faster R-CNN | 物体検出 | 領域提案(RPN)を内部で行う、高精度な2段階検出モデル。 |
| YOLO / SSD | 物体検出 | 画像を1回見るだけで検出する、リアルタイム性が高い1段階検出モデル。 |
| FCN | セマンティック | 全結合層を排除した、画像サイズの制約がないセグメンテーションの元祖。 |
| U-Net | セマンティック | スキップ結合を持つU字型構造。医療画像分野で特に活躍。 |
| SegNet | セマンティック | プーリング時の位置情報を保持し、解像度を復元する。 |
| PSPNet | セマンティック | 「Pyramid Pooling Module」で広範囲のコンテキストを考慮。 |
| DeepLab | セマンティック | 「Atrous畳み込み」を用い、解像度を維持しつつ広い範囲を見る。 |
| Mask R-CNN | インスタンス | Faster R-CNNを拡張し、ピクセル単位のマスク予測を追加。 |
| OpenPose | 姿勢推定 | 複数人の関節位置をリアルタイムに特定する骨格推定の代名詞。 |
4. 【手法】脳みそを賢くする「道具」
モデルの性能を引き出したり、モデルを設計したりするためのアイデアやテクニックです。ここがモデル名と混同しやすかった部分です。
| 手法名 | どんな道具(テクニック)か |
|---|---|
|
FPN (Feature Pyramid Network) |
大小様々な物体を見逃さないためのレンズ。 特徴マップをピラミッド状に構築し、Mask R-CNNなどの検出モデルに組み込まれる。 |
|
NAS (Neural Architecture Search) |
AIの設計図をAI自身に自動で作らせる設計ソフト。 人間ではなく強化学習などを使い、EfficientNetなどの誕生に貢献した。 |
5. 【データ】入力情報
AIが処理する対象となる画像データの種類です。
| データ名 | どんな入力情報か |
|---|---|
| マルチスペクトラム画像 | 人間の目に見える光(RGB)だけでなく、赤外線などの複数の波長を記録した特殊な画像。農業(生育状況)や衛星調査で活躍する。 |
おわりに
勉強を進める中で新しい用語に出会ったときは、「これは『目的(タスク)』かな?それとも『製品(モデル)』?それとも『道具(手法)』?」 と、この4つの引き出しに振り分けるようにしたところ、頭の中がかなり整理されました。
「〇〇という タスク を解くために、△△という 手法(道具)を使って作られた、××というモデル 」
今後もこの構造化のパターンを意識して、学習を続けていこうと思います。





