前置き
- この記事はこちらの記事の続きです
- 専門家ではないので、誤った情報を書いている可能性があります
- 本稿では、AI推論で使用される代表的なモデルをまとめます
まず「AIモデル」とは何か?
要点をざっくり復習
- モデルとは、ざっくり言えば「AIにおける頭脳・判断ロジック」
- 学習によって「猫の特徴」「人の顔のパターン」などを記憶し、
入力(例:画像)から出力(例:ラベル)を導く仕組み - モデルごとに得意なことや構造が違う
知っておくと便利な代表的なモデルとその特徴
1.YOLO(You Only Look Once)
目的:物体検出(画像内の「どこに何があるか」)
バージョン | 特徴 |
---|---|
YOLOv1〜v3 | 初期のリアルタイム物体検出。Darknetという独自フレームワークで実装 |
YOLOv4 | パフォーマンス向上。TensorFlowなどでも使いやすく |
YOLOv5 | UltralyticsがPyTorchで実装。ONNXに変換しやすく、使い勝手◎ |
YOLOv6〜v8 | 軽量化や精度改善が進化。YOLOv8は物体検出だけでなく、セグメンテーションや分類も対応可能 |
おすすめ用途:リアルタイムに画像内の物体を見つけたいケース(監視カメラ、交通監視など)
2.ResNet(Residual Network)
目的:画像分類(画像に何が写っているか)
バージョン | 特徴 |
---|---|
ResNet-18/34/50/101 | 数字が大きいほど層が深くて高精度(でも重い) |
- 残差接続(スキップ接続)により、深くても学習しやすいという革命的構造
おすすめ用途:画像に写っているモノを分類する(猫?犬?など)
3.MobileNet / EfficientNet
目的:軽量・高速な画像分類や検出(スマホや組込機器向け)
- MobileNet:軽いモデルで、Raspberry Piやスマホでも動く
- EfficientNet:精度も高くて効率が良い設計("Efficient")
おすすめ用途:デバイスに制限があるとき、低消費電力で使いたいとき
4.BERT(自然言語処理系)
目的:テキストの理解・分類・質問応答など
- Googleが開発した自然言語処理モデル
- 入力が文章、出力が「文の意味」や「分類結果」など
- ChatGPTも内部ではこれに似たTransformer構造を使ってる
おすすめ用途:文章の分類、要約、チャットボット、検索強化など
5.CLIP(画像+テキストのマルチモーダル)
目的:画像とテキストを同じ空間で理解する
- 「この画像に写っているのは"犬が走ってる"というテキストに近いか?」みたいな判断ができる
- OpenAIが開発しており、DALL·Eや類似検索などにも応用
おすすめ用途:画像検索・類似画像検出・マルチモーダルAI
モデルを選ぶときのポイント
目的 | モデル例 |
---|---|
画像に何が写ってるか知りたい | ResNet / EfficientNet |
画像の中に「どこに何があるか」知りたい | YOLO / Faster R-CNN |
軽くて高速にしたい | MobileNet / YOLOv5n(Nano) |
文章を分類したい | BERT / DistilBERT |
画像とテキストを組み合わせたい | CLIP / BLIP |
これだけは覚えておきたい代表モデル(まとめ)
モデル名 | 用途 | 特徴 |
---|---|---|
YOLOv5 | 物体検出 | 高速・ONNX変換しやすい・人気 |
ResNet50 | 画像分類 | 安定・高精度・基本中の基本 |
MobileNetV2 | 軽量分類 | スマホ・組み込み向け |
BERT | 自然言語 | 文脈理解がすごい |
CLIP | 画像+テキスト | OpenAI製、画像検索にも強い |
補足情報
※ 各モデルのONNX形式は以下のような場所から入手できます(2025.3現在)
次回(推論#03)は推論する環境の構築方法について記事を書こうと思います