LoginSignup
15
14

More than 3 years have passed since last update.

多機能すぎる Computer Vision の機能をおさらい(2020年12月版) ~ Microsoft Azure Cognitive Services | Vision

Last updated at Posted at 2020-12-09

他の多彩な(?)サービスに紛れて、案外注目されていない Computer Vision サービスの機能いろいろを紹介します。

Microsoft Azure > Cognitive Services > Computer Vision

Microsoft Store アプリとして無料で公開されている Intelligent Kiosk をインストールすると、Computer Vision の機能を気軽に試すことができます。例えば、画像の分析機能↓

20201204_ComputerVision_Kiosk.png

コンピュータビジョン(computer vision)とは:

コンピュータビジョン(computer vision)はコンピュータがデジタルな画像、または動画をいかによく理解できるか、ということを扱う研究分野である。工学的には、人間の視覚システムが行うことができるタスクを自動化することを追求する分野である。
from Wikipedia

ということで、Cognitive Services の Computer Vision も全般的な画像の分析を行うサービスです。(用語なのか、サービス名なのか分かりにくい💧。以下、"Computer Vision" と記載するときは Cognitive Services の Computer Vision (サービス) のこととします。)

Computer Vision の主な機能

Computer Vision の主な機能を紹介します。

  • 物体認識 (Object Detection)
  • OCR
  • タグ、キャプション作成
    • 認識した物体の情報から、その画像を説明するタグを選定し、キャプション(説明、文章) を生成します。
    • 画像に使われている色、トーンからメインカラー、サブカラーを選定します。
  • サムネイル作成
    • 画像の主題を中心にサムネイル画像を作成します。
  • 空間認識 (Spatial Analysis)
    • 2次元の動画 (= 深度カメラによる Depth は不要) から人物を認識 (Object Detection) します。

Computer Vision の使い方

必要な準備

  • Azure サブスクリプション (無料試用版でOK)
  • Computer Vision サービスの作成 (Free版でOK)

Azure 無料試用版 & Cognitive Services 準備 の手順を参考に作成しておきます。

Web API リクエストなど使い方

Web API リクエスト、または SDK ( .NET C# ( .NET Document |nuget), Node.js(JavaScript), Python, Java, Go ) も利用できます。

Web API の仕様は API リファレンスから確認できます
- v3.1
- v3.2 Preview (Read のみ)

Web API なので、例えば以下のように情報をセットしてリクエストを送信、結果を取得します。

// Request URL
POST https://YOUR_CV_URL/vision/v3.1/detect
// Header
Content-Type: application/json
Ocp-Apim-Subscription-Key: YOUR_SUB_KEY
// Body
{"url":"http://example.com/images/test.jpg"}

YOUR_CV_URL(エンドポイント) と YOUR_SUB_KEY(キー) は Computer Vision のサービス作成時や Azure Portal から確認してください。

20201201_AzPortal_ComputerVisionKey.png

コンテナーの利用

Web API リクエストで利用できる Computer Vision は、ローカル環境に配置して利用できる Docker コンテナー も用意されています。(Dockerコンテナーで稼働させる Web サービスに API Request して利用します。)
Computer Vision の機能では、OCR (Read API) と 空間認識 (Spatial Analysis) がコンテナーとして提供されています。

Microsoft Docs > Azure Cognitive Services コンテナー

利用イメージ↓
Cognitive Services Containers を利用して ローカルの Docker コンテナで Text Analytics Sentiment を試す

空間認識の機能はコンテナーのみの提供です。

利用できる Web API と機能

# 機能 API 名称 API Call 先(v3.1, v3.2 preview)
1 画像分析
コンテンツカテゴリー、色の選定
人物の顔、物体認識、タグ、ロゴ、不適切、著名人、名所旧跡の認識
Analyze Image https://YOUR_CV_URL/vision/v3.1/analyze
2 物体認識 Detect Objects https://YOUR_CV_URL/vision/v3.1/detect
3 タグ付け Tag Image https://YOUR_CV_URL/vision/v3.1/tags
4 キャプション作成 Describe Image https://YOUR_CV_URL/vision/v3.1/describe
5 主題となる画像領域の抽出 Get Area of Interest
Get Thumbnail
https://YOUR_CV_URL/vision/v3.1/areaOfInterest
https://YOUR_CV_URL/vision/v3.1/generateThumbnail
6 OCR Read
※3.2 Preview を推奨
https://YOUR_CV_URL/vision/v3.2-preview.1/read/analyze
7 特定ドメインの検出 Recognize Domain Specific Content https://YOUR_CV_URL/vision/v3.1/models/{model}/analyze
※{model} は特定ドメインモデル名

1. 画像分析

一番多機能な API です。
コンテンツカテゴリー、色、人物の顔、物体認識、タグ、ロゴ、不適切、著名人、名所旧跡 の検出が可能です。
Analyze で以下のパラメーター(出力の有無)を設定します。

  • VisualFeatures
    • Adult: 不適切なコンテンツ
    • Brands: ロゴ、ブランド
    • Categories: カテゴリー
    • Color: メイン、サブカラー
    • Description: キャプション(説明文)
    • Faces: 人物の顔 (年齢と表情
    • ImageType: 画像情報(サイズ、ファイルタイプ)
    • Objects: オブジェクト検出
    • Tags: 画像タグ
  • details
    • Celebrities: 著名人
    • Landmarks: 名所旧跡

また、パラメーターで言語設定(language=ja だと日本語)も可能です。
例えば Postman で API Request を行うと、以下のように出力結果が JSON が取得できます。

20201204_ComputerVision_Analyze.png

2. 物体認識

画像の Object Detection を行い、Object とその位置(rectangle の座標)を出力します。

20201204_ComputerVision_Detect.png

JSON で出力されたこの情報を Intelligent Kiosk でユーザーに分かりやすい UI で表示するとこのようになります。

20201204_ComputerVision_DetectImage.png

3. タグ付け

画像から検出した Object や推測される動作、状況などをタグとして選定し、関連度 (confidence) スコアと共に出力します。パラメーターで言語設定(language=ja で日本語)も可能です。

20201204_ComputerVision_Tag.png

4. キャプション作成

画像の説明に合ったキャプション(文章)を生成して出力します。こちらもパラメーターで言語設定も可です。

20201204_ComputerVision_Describe.png

5. 主題となる画像領域の抽出

Get Area of Interest で主題となる画像領域の座標を出力し、Get Thumbnail で主題領域を目途に指定サイズに切り出しを行います。

20201204_ComputerVision_AreaofInterest.png

Get Thumbnail では、パラメーターでサイズ(width & height)や、主題に沿った切り出し(smartCropping)の指定を行います。

元の画像

結果↓

20201204_ComputerVision_Thumbnail.png

6. OCR

OCR という名前の Web API もありますが、ぜひ Read (※ 最新の日本語対応版の 3.2 preview) を使ってください。

まず、Read に POST すると、Resonse Header で結果のURLを取得できます。

20201204_ComputerVision_PostRead.png

結果の URL (→ Get Read Result) に GET Request して結果を取得します。(Header に Subscription Key のセットをお忘れなく)

20201204_ComputerVision_GetReadResult.png

この情報を画像上に配置してみると、このようになります。

20201204_ComputerVision_ReadResult.png

7. 特定ドメインの検出

特定ドメインのオブジェクトを検出します。
利用できるドメインは List Domain Specific Models で取得できます。 (現在は 著名人(celebrities) と 名所旧跡(landmark))

元画像
20201204_ComputerVision_TokyoTower.png

↓結果

20201204_ComputerVision_DomainModel.png

15
14
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
15
14