多機能すぎる Computer Vision の機能をおさらい(2020年12月版) ~ Microsoft Azure Cognitive Services | Vision

Last updated at 2020-12-03Posted at 2020-12-09

他の多彩な(?)サービスに紛れて、案外注目されていない Computer Vision サービスの機能いろいろを紹介します。

Microsoft Azure > Cognitive Services > Computer Vision

Microsoft Store アプリとして無料で公開されている Intelligent Kiosk をインストールすると、Computer Vision の機能を気軽に試すことができます。例えば、画像の分析機能↓

コンピュータビジョン（computer vision）とは:

コンピュータビジョン（computer vision）はコンピュータがデジタルな画像、または動画をいかによく理解できるか、ということを扱う研究分野である。工学的には、人間の視覚システムが行うことができるタスクを自動化することを追求する分野である。
from Wikipedia

ということで、Cognitive Services の Computer Vision も全般的な画像の分析を行うサービスです。(用語なのか、サービス名なのか分かりにくい💧。以下、"Computer Vision" と記載するときは Cognitive Services の Computer Vision (サービス) のこととします。)

Computer Vision の主な機能

Computer Vision の主な機能を紹介します。

物体認識 (Object Detection)
OCR
タグ、キャプション作成
- 認識した物体の情報から、その画像を説明するタグを選定し、キャプション(説明、文章) を生成します。
色
- 画像に使われている色、トーンからメインカラー、サブカラーを選定します。
サムネイル作成
- 画像の主題を中心にサムネイル画像を作成します。
空間認識 (Spatial Analysis)
- 2次元の動画 (＝深度カメラによる Depth は不要) から人物を認識 (Object Detection) します。

Computer Vision の使い方

必要な準備

Azure サブスクリプション (無料試用版でOK)
Computer Vision サービスの作成 (Free版でOK)

Azure 無料試用版 & Cognitive Services 準備の手順を参考に作成しておきます。

Web API リクエストなど使い方

Web API リクエスト、または SDK ( .NET C# ( .NET Document |nuget), Node.js(JavaScript), Python, Java, Go ) も利用できます。

Web API の仕様は API リファレンスから確認できます

Web API なので、例えば以下のように情報をセットしてリクエストを送信、結果を取得します。

// Request URL
POST https://YOUR_CV_URL/vision/v3.1/detect
// Header
Content-Type: application/json
Ocp-Apim-Subscription-Key: YOUR_SUB_KEY
// Body
{"url":"http://example.com/images/test.jpg"}

YOUR_CV_URL(エンドポイント) と YOUR_SUB_KEY(キー) は Computer Vision のサービス作成時や Azure Portal から確認してください。

コンテナーの利用

Web API リクエストで利用できる Computer Vision は、ローカル環境に配置して利用できる Docker コンテナーも用意されています。(Dockerコンテナーで稼働させる Web サービスに API Request して利用します。)
Computer Vision の機能では、OCR (Read API) と空間認識 (Spatial Analysis) がコンテナーとして提供されています。

Microsoft Docs > Azure Cognitive Services コンテナー

利用イメージ↓
Cognitive Services Containers を利用してローカルの Docker コンテナで Text Analytics Sentiment を試す

空間認識の機能はコンテナーのみの提供です。

利用できる Web API と機能

#	機能	API 名称	API Call 先(v3.1, v3.2 preview)
1	画像分析コンテンツカテゴリー、色の選定人物の顔、物体認識、タグ、ロゴ、不適切、著名人、名所旧跡の認識	Analyze Image	https://YOUR_CV_URL/vision/v3.1/analyze
2	物体認識	Detect Objects	https://YOUR_CV_URL/vision/v3.1/detect
3	タグ付け	Tag Image	https://YOUR_CV_URL/vision/v3.1/tags
4	キャプション作成	Describe Image	https://YOUR_CV_URL/vision/v3.1/describe
5	主題となる画像領域の抽出	Get Area of Interest Get Thumbnail	https://YOUR_CV_URL/vision/v3.1/areaOfInterest https://YOUR_CV_URL/vision/v3.1/generateThumbnail
6	OCR	Read ※3.2 Preview を推奨	https://YOUR_CV_URL/vision/v3.2-preview.1/read/analyze
7	特定ドメインの検出	Recognize Domain Specific Content	https://YOUR_CV_URL/vision/v3.1/models/{model}/analyze ※{model} は特定ドメインモデル名

1. 画像分析

一番多機能な API です。
コンテンツカテゴリー、色、人物の顔、物体認識、タグ、ロゴ、不適切、著名人、名所旧跡の検出が可能です。
Analyze で以下のパラメーター(出力の有無)を設定します。

VisualFeatures
- Adult: 不適切なコンテンツ
- Brands: ロゴ、ブランド
- Categories: カテゴリー
- Color: メイン、サブカラー
- Description: キャプション(説明文)
- Faces: 人物の顔 (年齢と表情
- ImageType: 画像情報(サイズ、ファイルタイプ)
- Objects: オブジェクト検出
- Tags: 画像タグ
details
- Celebrities: 著名人
- Landmarks: 名所旧跡