概要
Azure AIのVision StudioというWebサービスを使うと、トレーニング済みのモデルを利用して、ブラウザで、画像・動画解析のデモを試すことができます。自分の手元の画像や動画も使えます。
はじめに
12月から、AzureのAI-102試験を勉強しております。
AI-102試験で扱う主なサービスは、以下のとおりです。
- 視覚(Vision)
- 自然言語(Natural Language)
- 音声(Speech)
- 文書(Document Intelligence)
- 検索(Knowledge Mining)
- 生成AI(Generative AI)
視覚(Vision)に関する主なサービスは、以下のとおりです。
- Vision
- 画像に写っているものを特定する(一般的でないものは特定不可)
- 画像に写っている文字を読み取る。
- 画像に人の顔が写っているか、また簡単な識別(この顔は誰か)も可能
- 空間分析
- 動画内の、人の数、出入り、人同士の距離を分析可能。
- Custom Vision
- 専用のモデルを構築し、画像内の、登録した物体(社内で開発中の製品など)を特定する。
- Face
- 画像に写っている人の顔を、細かく分析する。
- 年齢、感情、ヒゲ・メガネの有無など。
- 画像に写っている人の顔を、細かく分析する。
- Video Indexer
- 動画の様々な内容を分析する。
- 文字起こし
- 人の顔、感情
- 音(SE,BGM)
- 動画の様々な内容を分析する。
まとめ
- 画像ならVision、動画ならVideo Indexerが基本的な機能を備えています。
- Visionの空間分析でも動画を扱いますが、これはエッジコンピュータでストリームデータを扱うことを想定しているので、結構特殊な印象を受けました。現場のカメラとコンピュータで、コロナ対策をする時に役立ちそうです。
- Video Indexerは、Web会議やテレビ番組のようなものを後から解析するときに使えそうですね。
- Custom VisionとFaceは特定の用途向けですね。
Vision Studioとは
Copilotに聞いてみました。
Azure AIのVision Studioは、Azure AI Visionの機能を探索、構築、統合できるUIベースのツールです。これにより、コードを記述することなく、さまざまなサービス機能を試し、提供される内容を学ぶことができます
URLはこちらです。
ある程度の機能は、ログインなしでも使えるようです。
ちなみにログインして使う場合ですが、Azure AI Servicesのリソースを指定する必要があ流ので、作っておきましょう。
その際に、インスタンスのリージョンが、日本だと、Vision Studioで利用できないので、以下の中から選ぶと良いです。
それでは、早速使ってみましょう。
Add dense captions to images
すると、以下のページに遷移します。
人と犬が写っている写真をクリックします。
選択した画像が左下に大きく写し出されました。
また、どんな画像なのか、AIが右下に表示してくれました。
右下の説明をクリックすると、それが、画像上のどこのことなのか、左下にオレンジの枠で表示されます。
自分の持っている画像をアップロードして解析できるので、やってみました。
多摩川沿いの神社近くで撮った写真です。
風車が認識されてますが、いくつか無視されてますね
Search photos with image retrieval
次はこれを試してみます。
ある写真のグループがあります。
クエリを選ぶことで、関連した画像だけ絞り込むことができます。
左右のスライダーを右にずらすと、緩やかな判定になり、クエリと関係ない画像が後ろの方に表示されます。
Extract text from images
OCRで文字起こしができます。
Create smart-cropped images
写っている内容を考慮して、画像を切り取り加工します。
Detect faces in an image
人間の顔を認識します。マスクの有無及び、マスクで鼻が隠れているかまでチェックできます
空間分析のサンプル動画
上記赤枠の4つの動画を見ると、Visionの空間分析でできることを、詳しく知ることができます。
URLはこちら。
動画の解析例
こちらは、おそらくVideo Indexerを使ったものと思われます。
「床にこぼれたミルク」で絞り込むと、そのタイムラインを表示してくれます。
以上、Vision Studioの紹介でした。次回は、言語向けの「Language Studio」を使ってみます。