0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

はじめに

G検定の勉強を進める中で、画像認識の分野はアルゴリズムやモデル名が膨大で、どうしても頭の中が混乱しがちでした。
「YOLOって何だっけ?」「FPNと何が違うの?」とテキストの中で迷子になってしまったため、自分なりに用語を整理するための「引き出し」を作ってみることにしました。

この記事は、私の学習ノートとして、画像認識の用語を 「①タスク」「②モデル」「③手法」「④データ」 という4つの観点で整理した内容をまとめたものです。同じように学習を進めている方の参考になれば嬉しいです。

1. 知識を整理する「4つの枠組み」

用語の暗記に入る前に、まずはこの4つの「引き出し」の概念を作ると、情報の整理がとても楽になることに気づきました。個人的には、料理に例えるとイメージしやすかったです。

枠組み 自分なりの解釈 例え話(料理)
タスク AIへの依頼内容・目的(何をしてほしいか) 「カレーを作る」という目的
モデル AIの脳みそ・完成した設計図(具体的な製品名) 「〇〇店特製の圧力鍋カレー」という商品
手法 脳みそを賢くする「道具・テクニック」 「圧力鍋を使う」「具を工夫する」技
データ AIが読み込む入力情報 カレーの材料(肉、野菜、スパイス)

image.png

💡 学習の気づき:「モデル」と「手法」の関係性

テキストを読んでいて一番腑に落ちたのが、「手法」はモデルを形作るための 道具(ツール) であるということです。

  • モデルが手法を内蔵している: 「小さなものを見逃さない道具(手法:FPN)」を最初から装備している「物体検出AI(モデル:Mask R-CNN)」。
  • 手法を使ってモデルを作る: 「全自動設計ソフト(手法:NAS)」を使って生み出された「高効率な脳みそ(モデル:EfficientNet)」。

このように捉えると、それぞれの用語の立ち位置がスッキリしました。

2. 【タスク】AIへの依頼内容

AIに何をさせて、どんな結果を出してほしいかという「ゴール」の種類としてまとめました。(※「画像認識」はこれら全体の総称として捉えています)

タスク名 AIへの依頼内容(ゴール)
一般物体認識
(物体識別)
画像全体を見て「何が写っているか」を分類する。
物体検出 画像内の物体の「位置(四角い枠)」と「種類」を特定する。
セマンティック
セグメンテーション
ピクセル単位「種類(クラス)」で塗り分ける(同じ種類の別の個体は区別しない)。
インスタンス
セグメンテーション
ピクセル単位「個体(インスタンス)」で塗り分ける(同じ種類でも1つずつ個体を区別する)。
パノプティック
セグメンテーション
背景(セマンティック)も個体(インスタンス)も、全ピクセルを完璧に塗り分ける。
姿勢推定 人物の関節位置(キーポイント)を特定して、骨格を当てる。

image.png

3. 【モデル】AIの脳みそ(完成品)

タスクを解くために開発された、具体的なネットワーク(製品)名です。「このモデルはどのタスクが得意か」をセットで覚えるようにしています。

画像分類モデル(基本・最新・軽量)

モデル名 脳みその特徴・キーワード
AlexNet 2012年ILSVRC優勝。ディープラーニングブームの火付け役。
VGG 2014年ILSVRC第2位。3×3の小さなフィルタを重ね、層を深くしたシンプルな構造。
GoogLeNet 2014年ILSVRC優勝。「Inceptionモジュール」を導入し、計算効率を追求。
ResNet 2015年ILSVRC優勝。「スキップ結合」 を導入。勾配消失を解決し、152層の超深層化を実現。
DenseNet 前方の出力を後方の全層に結合(密結合)。ResNetの進化系の一つ。
SENet チャンネル間の重要度を学習(SEブロック)して重み付けする。
NASNet NAS(ニューラルアーキテクチャ探索)を用い、AIが自動で設計したネットワーク構造。
WideResNet ResNetの「深さ」ではなく「幅(チャンネル数)」を増やしたモデル。
ViT / Swin Transformer 自然言語処理の「Transformer」技術を画像に応用した最新トレンド。
MobileNet 「Depthwise Separable Convolution」で計算量を大幅削減(スマホ向け)。2017年にGoogleが開発。
EfficientNet 深さ・幅・解像度の3要素を最適にスケーリングした高効率モデル。2019年にGoogleが発表
MnasNet 強化学習(NAS)を用いてモバイル向けの構造を自動探索したモデル。

image.png

💡 学習の気づき:ResNetは「スキップ結合」の親玉

ResNetが発明した「スキップ結合(ショートカットして情報を伝える仕組み)」は、後のモデルに多大な影響を与えていることに気づきました。

  • 派生: 深さより幅を優先した WideResNet
  • 極致: 結合をめちゃくちゃ増やした DenseNet
  • 応用: 医療用の U-Net でも位置情報を伝えるためにこの仕組みが使われている

「層を深くしすぎると勾配が消えて学習できなくなる」という問題を解決したResNetは、まさに現代の画像認識のスタンダードなんだなと実感しました。

物体検出・セグメンテーション・姿勢推定モデル

モデル名 対応タスク 脳みその特徴・キーワード
Faster R-CNN 物体検出 領域提案(RPN)を内部で行う、高精度な2段階検出モデル。
YOLO / SSD 物体検出 画像を1回見るだけで検出する、リアルタイム性が高い1段階検出モデル。
FCN セマンティック 全結合層を排除した、画像サイズの制約がないセグメンテーションの元祖。
U-Net セマンティック スキップ結合を持つU字型構造。医療画像分野で特に活躍。
SegNet セマンティック プーリング時の位置情報を保持し、解像度を復元する。
PSPNet セマンティック 「Pyramid Pooling Module」で広範囲のコンテキストを考慮。
DeepLab セマンティック 「Atrous畳み込み」を用い、解像度を維持しつつ広い範囲を見る。
Mask R-CNN インスタンス Faster R-CNNを拡張し、ピクセル単位のマスク予測を追加。
OpenPose 姿勢推定 複数人の関節位置をリアルタイムに特定する骨格推定の代名詞。

image.png

4. 【手法】脳みそを賢くする「道具」

モデルの性能を引き出したり、モデルを設計したりするためのアイデアやテクニックです。ここがモデル名と混同しやすかった部分です。

手法名 どんな道具(テクニック)か
FPN
(Feature Pyramid Network)
大小様々な物体を見逃さないためのレンズ。
特徴マップをピラミッド状に構築し、Mask R-CNNなどの検出モデルに組み込まれる。
NAS
(Neural Architecture Search)
AIの設計図をAI自身に自動で作らせる設計ソフト。
人間ではなく強化学習などを使い、EfficientNetなどの誕生に貢献した。

image.png

5. 【データ】入力情報

AIが処理する対象となる画像データの種類です。

データ名 どんな入力情報か
マルチスペクトラム画像 人間の目に見える光(RGB)だけでなく、赤外線などの複数の波長を記録した特殊な画像。農業(生育状況)や衛星調査で活躍する。

Gemini_Generated_Image_ab1qb9ab1qb9ab1q.png

おわりに

勉強を進める中で新しい用語に出会ったときは、「これは『目的(タスク)』かな?それとも『製品(モデル)』?それとも『道具(手法)』?」 と、この4つの引き出しに振り分けるようにしたところ、頭の中がかなり整理されました。

「〇〇という タスク を解くために、△△という 手法(道具)を使って作られた、××というモデル

今後もこの構造化のパターンを意識して、学習を続けていこうと思います。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?