人工知能概論【第六講】

Last updated at 2026-02-17Posted at 2026-02-15

Lecture06: Summary of Computer Vision Tasks

画像認識タスクの整理とまとめ

第五講までで、機械学習の基礎からCNNの仕組みまでを学び、画像認識の「基礎編」が完結しました。
今回の第六講では、これから始まる「応用編第一部」に向けて、画像認識（コンピュータビジョン）の世界でどのようなタスク（課題）があるのかを整理します。

これを知ることで、なぜ次回の第七講で学ぶ「YOLO」がそれほどまでに注目されているのか、その理由がより明確になります。

画像認識の技術は、目的（何を知りたいか）によって大きく分類されます。

画像認識タスクの進化は、「画像の中の情報をどれだけ細かく、具体的に取り出すか」の歴史でもあります。

タスクが高度になるにつれ、AIが返す「情報の密度」が上がっていきます。

タスク	出力の内容（エンジニア視点）	データの持ち方（例）	精密度
画像分類	画像に紐づくひとつの答え	`class_id: 3 (Dog)`	画像全体
物体検出	何がどこにあるか	`[class, x, y, w, h]`	個体(Things)
セグメンテーション	どこまでが対象か	`[0,0,1,1,0,...]`	ピクセル/領域
姿勢推定	どんなポーズか	`[kp1_x, kp1_y, conf, ...]`	人物の構造

物体検出からセグメンテーションや姿勢推定へと進むにつれ、処理しなければならない情報量や計算アルゴリズムの複雑さが増していきます。一方で、得られる情報の解像度が上がるため、より高度なビジネス課題の解決が可能になります。

ビジネスの現場において最も「費用対効果」が高く、応用範囲が広いのが 物体検出 です。

画像全体を分類するだけでは不十分で、かといって1ピクセル単位で形を切り抜くには計算コストが高すぎる——。その絶妙なバランスを実現し、リアルタイムで実用化にこぎつけたのが、次講で紹介する YOLO です。

いよいよ次回から、この中でも特に現場で大活躍している「物体検出モデル YOLO」の核心に迫ります。