0

【推論#02】AI推論でよく使われる代表的なモデルまとめ（YOLO / ResNet / BERT など）

Last updated at 2025-03-26Posted at 2025-03-19

前置き

この記事はこちらの記事の続きです
専門家ではないので、誤った情報を書いている可能性があります
本稿では、AI推論で使用される代表的なモデルをまとめます

まず「AIモデル」とは何か？

要点をざっくり復習

モデルとは、ざっくり言えば「AIにおける頭脳・判断ロジック」
学習によって「猫の特徴」「人の顔のパターン」などを記憶し、
入力（例：画像）から出力（例：ラベル）を導く仕組み
モデルごとに得意なことや構造が違う

知っておくと便利な代表的なモデルとその特徴

１．YOLO（You Only Look Once）

目的：物体検出（画像内の「どこに何があるか」）

バージョン	特徴
YOLOv1〜v3	初期のリアルタイム物体検出。Darknetという独自フレームワークで実装
YOLOv4	パフォーマンス向上。TensorFlowなどでも使いやすく
YOLOv5	UltralyticsがPyTorchで実装。ONNXに変換しやすく、使い勝手◎
YOLOv6〜v8	軽量化や精度改善が進化。YOLOv8は物体検出だけでなく、セグメンテーションや分類も対応可能

おすすめ用途：リアルタイムに画像内の物体を見つけたいケース（監視カメラ、交通監視など）

２．ResNet（Residual Network）

目的：画像分類（画像に何が写っているか）

バージョン	特徴
ResNet-18/34/50/101	数字が大きいほど層が深くて高精度（でも重い）

残差接続（スキップ接続）により、深くても学習しやすいという革命的構造

おすすめ用途：画像に写っているモノを分類する（猫？犬？など）

３．MobileNet / EfficientNet

目的：軽量・高速な画像分類や検出（スマホや組込機器向け）

MobileNet：軽いモデルで、Raspberry Piやスマホでも動く
EfficientNet：精度も高くて効率が良い設計（"Efficient"）

おすすめ用途：デバイスに制限があるとき、低消費電力で使いたいとき

４．BERT（自然言語処理系）

目的：テキストの理解・分類・質問応答など

Googleが開発した自然言語処理モデル
入力が文章、出力が「文の意味」や「分類結果」など
ChatGPTも内部ではこれに似たTransformer構造を使ってる

おすすめ用途：文章の分類、要約、チャットボット、検索強化など

５．CLIP（画像＋テキストのマルチモーダル）

目的：画像とテキストを同じ空間で理解する

「この画像に写っているのは"犬が走ってる"というテキストに近いか？」みたいな判断ができる
OpenAIが開発しており、DALL·Eや類似検索などにも応用

おすすめ用途：画像検索・類似画像検出・マルチモーダルAI

モデルを選ぶときのポイント

目的	モデル例
画像に何が写ってるか知りたい	ResNet / EfficientNet
画像の中に「どこに何があるか」知りたい	YOLO / Faster R-CNN
軽くて高速にしたい	MobileNet / YOLOv5n（Nano）
文章を分類したい	BERT / DistilBERT
画像とテキストを組み合わせたい	CLIP / BLIP

これだけは覚えておきたい代表モデル（まとめ）

モデル名	用途	特徴
YOLOv5	物体検出	高速・ONNX変換しやすい・人気
ResNet50	画像分類	安定・高精度・基本中の基本
MobileNetV2	軽量分類	スマホ・組み込み向け
BERT	自然言語	文脈理解がすごい
CLIP	画像＋テキスト	OpenAI製、画像検索にも強い

補足情報

※ 各モデルのONNX形式は以下のような場所から入手できます(2025.3現在)

次回(推論#03)は推論する環境の構築方法について記事を書こうと思います

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0