この記事は、Microsoft Power Automate Advent Calendar 2023 に参加しています。
カレンダー1 の 5日目 です。
はじめに
AI Builder に「画像の説明」モデルが新たに追加されました。
画像を AI が分析し、その視覚的特徴を人間が判読できるフレーズと、タグで出力します。
私の自撮り画像(X 等アイコン利用)からは、
説明
ライオンのクローズアップ
タグ
大きな猫、ライオン、探している、近い、見つめる、黄褐色、距離
が出力されました
この新しいモデルについて説明します。
注意
「画像の説明」モデルはPreview機能です。(2023/12/03 時点)
AI Builder を利用するには、Power Automate Premium ,Power Apps Premium または Dynamics 365 Finance といったライセンスに付帯する「ザービスクレジット」を利用する必要があります。
仕様
事前構築済みモデルが画像を分析し、その視覚的特徴に基づいて理解しやすい説明分を生成します。
事前構築済みモデルのため、学習によるモデルのカスタマイズは不可です。
Azure Cognitive Service の Azure AI Vision に含まれる、以下2つのモデルが1つ統合した機能となります。お得ですね!
- Image captions
- Image tagging
仕様と制限
入出力仕様の説明です。
プロパティ | 説明 |
---|---|
形式 | .JPG、.JPEG、.PNG、.BMP |
サイズ | 4 MBまで 50 x 50 ピクセルより大きいこと |
プロパティ | 説明 |
---|---|
説明 | イメージの説明 |
タグ | 画像から抽出されたタグの一覧 |
信頼度スコア | 予測の精度(%) |
2023/11/23 時点で Preview 段階であり、出力は英語 (米国)となります。
Power Automateでの利用
最小限のフローの一例です。
SharePoint や OneDrive コネクタの「ファイル コンテンツの取得」から画像ファイルを取得し、当モデル処理するのが簡単です。
[AI Builder]コネクタの[画像の説明を生成する]アクションを選択し、上記で取得したファイルコンテンツをInputパラメータとします。
参考までに出力のJSONです。
「説明」や「タグ」は後続処理で動的なコンテンツとして取得可能です。
"body": {
"@odata.context": "https://orgd7915745.crm7.dynamics.com/api/data/v9.1/$metadata#Microsoft.Dynamics.CRM.PredictResponse",
"responsev2": {
"@odata.type": "#Microsoft.Dynamics.CRM.expando",
"operationStatus": "Success",
"predictionId": "6bc6f71f-db15-45c2-92a3-9668fc2a842a",
"predictionOutput": {
"@odata.type": "#Microsoft.Dynamics.CRM.expando",
"description": "a lion with brown eyes",
"descriptionConfidence": 0.45085760951042175,
"objects@odata.type": "#Collection(String)",
"objects": [
"looking",
"brown",
"big cat",
"close",
"staring",
"eyes",
"distance",
"lion"
]
}
}
}
タグは配列の形式で出力されますので、ループ処理や選択アクションを利用し、取得してください。
まとめ
「画像の説明」モデルの活用例として以下が考えられます。
- タグ付けされた画像のコンテンツ管理
- 視覚障碍者へのサポート
- 監視カメラから特定の行動や物体を識別しセキュリティの向上 など
非常に強力なモデルですので、ご活用いただければ幸いです。