この投稿の目的
画像処理に関連する問題を解く際に実装方法を選択するためのガイドを作る。
※初学者のため、記載内容に過不足・誤りなどがあれば、指摘頂けると幸い。
問題解決の流れ
項目 | 内容 |
---|---|
タスクの定義 | これから解く問題をどのタスクとして扱うか定義する |
アーキテクチャの決定 | 定義したタスクの中から主要なアーキテクチャを決定 |
評価指標の決定 | 問題に対して適切な評価指標を決める |
画像処理の主要なタスク
解きたい問題が画像認識である時に、要件に応じてそれがどのタスクであるかを定義する
- 画像分類
- 物体検出
- セマンティックセグメンテーション
- 異常検知
タスク毎の有名なアーキテクチャ
※アーキテクチャ毎の特徴、使い分けを今後追記する
画像分類
- AlexNet
- VGG16
- ResNet
物体検出
- Yolo-v2, yolo-v3
- SSD
セマンティックセグメンテーション
- U-Net
- SegNet
- PSPNet
- GCN
- DeepLabv3+
異常検知
- auto-encoderを元にしたモデル (特定のタスクがないので標準的なモデルも定まっていない)
参照: https://www.youtube.com/watch?v=vFpZrxaq5xU
タスク毎の評価指標
※セマンティックセグメンテーション以外は今後メンテナンス
セマンティックセグメンテーション
- Pixel Wise Accuracy
- Mean Accuracy
- Mean Intersection over Union(Mean IoU)
- Precision, Recall, F1 score