Microsoft Power AutomateAdvent Calendar 2023

AI Builder に新たに追加されたモデル「画像の説明」について

Last updated at 2024-11-16Posted at 2023-12-04

この記事は、Microsoft Power Automate Advent Calendar 2023 に参加しています。
カレンダー1 の 5日目です。

はじめに

AI Builder に「画像の説明」モデルが新たに追加されました。

画像を AI が分析し、その視覚的特徴を人間が判読できるフレーズと、タグで出力します。

私の自撮り画像（X 等アイコン利用）からは、

説明
　ライオンのクローズアップ
タグ
　大きな猫、ライオン、探している、近い、見つめる、黄褐色、距離

が出力されました

この新しいモデルについて説明します。

注意

「画像の説明」モデルはPreview機能です。（2023/12/03 時点）

AI Builder を利用するには、Power Automate Premium ，Power Apps Premium または Dynamics 365 Finance といったライセンスに付帯する「ザービスクレジット」を利用する必要があります。

仕様

事前構築済みモデルが画像を分析し、その視覚的特徴に基づいて理解しやすい説明分を生成します。
事前構築済みモデルのため、学習によるモデルのカスタマイズは不可です。

Azure Cognitive Service の Azure AI Vision に含まれる、以下２つのモデルが１つ統合した機能となります。お得ですね！

Image captions

Image tagging

仕様と制限

入出力仕様の説明です。

入力となる画像ファイルの仕様
プロパティ	説明
形式	.JPG、.JPEG、.PNG、.BMP
サイズ	4 MBまで 50 x 50 ピクセルより大きいこと

出力仕様
プロパティ	説明
説明	イメージの説明
タグ	画像から抽出されたタグの一覧
信頼度スコア	予測の精度（％）

2023/11/23 時点で Preview 段階であり、出力は英語 (米国)となります。

Power Automateでの利用

最小限のフローの一例です。

SharePoint や OneDrive コネクタの「ファイルコンテンツの取得」から画像ファイルを取得し、当モデル処理するのが簡単です。

[AI Builder]コネクタの[画像の説明を生成する]アクションを選択し、上記で取得したファイルコンテンツをInputパラメータとします。

参考までに出力のJSONです。
「説明」や「タグ」は後続処理で動的なコンテンツとして取得可能です。

   "body": {
       "@odata.context": "https://orgd7915745.crm7.dynamics.com/api/data/v9.1/$metadata#Microsoft.Dynamics.CRM.PredictResponse",
       "responsev2": {
           "@odata.type": "#Microsoft.Dynamics.CRM.expando",
           "operationStatus": "Success",
           "predictionId": "6bc6f71f-db15-45c2-92a3-9668fc2a842a",
           "predictionOutput": {
               "@odata.type": "#Microsoft.Dynamics.CRM.expando",
               "description": "a lion with brown eyes",
               "descriptionConfidence": 0.45085760951042175,
               "objects@odata.type": "#Collection(String)",
               "objects": [
                   "looking",
                   "brown",
                   "big cat",
                   "close",
                   "staring",
                   "eyes",
                   "distance",
                   "lion"
               ]
           }
       }
   }

画像の説明
タグ

タグは配列の形式で出力されますので、ループ処理や選択アクションを利用し、取得してください。

信頼度スコア
AIによる予想の制度を表す信頼度スコアも動的なコンテンツで取得可能です。

まとめ

「画像の説明」モデルの活用例として以下が考えられます。

タグ付けされた画像のコンテンツ管理
視覚障碍者へのサポート
監視カメラから特定の行動や物体を識別しセキュリティの向上　など

非常に強力なモデルですので、ご活用いただければ幸いです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up