Azure AI Content Understanding で非構造化ファイルを構造化

Last updated at 2025-03-05Posted at 2024-11-26

Azure AI Content Understanding は Microsoft Ignite 2024 にて発表されたマルチモーダルデータの取り込みとコンテンツの抽出を行う生成 AI ベースの新サービスです。このサービスは、ドキュメント、画像、音声、ビデオなどのさまざまなデータタイプを取り込み、簡単に処理および分析できる構造化された形式に変換します。

準備

West US, Sweden Central, Australia East リージョンの Azure AI services multi-services リソースを作成

制限

サービスクォータ制限

言語の制限

Document: 英語※
Image: 英語
Audio: 英語、簡体中国語、フランス語、ドイツ語、ヒンディー語、ヒンディー語、日本語、韓国語、スペイン語、(ブラジル)
Video: 英語、簡体中国語、フランス語、ドイツ語、ヒンディー語、ヒンディー語、日本語、韓国語、スペイン語、(ブラジル)

※ただし、以下の注意書きが追加されていました。

以下のサポート対象言語は、後処理で単語のロケールを考慮した正規化が有効になっている言語です。
コンテンツの理解はさまざまな言語に対応していますので、ぜひお試しいただき、価値そのものではなく、コンテンツに焦点を当ててください。

Azure AI Foundry のプロジェクトから接続設定を追加

Azure AI Foundry 上から扱うためには、管理センターから接続設定を開き、作成した「Azure AI サービス」から追加する必要があります。

Azure AI Content Understanding プロジェクト

Azure AI Content Understanding の TOP へ移動し、「Create new Content Understanding project」ボタンを押下します。

接続設定が完了していれば、ここでハブを選択した時に Azure AI services connection が選択できるようになっています。次に Blob storage を選択して「Create project」ボタンを押せば作成されます。

作成後は Azure AI Foundry のプロジェクト一覧からアクセスできます。

アナライザーをビルドする

Azure AI Content Understanding では、ファイルからコンテンツを抽出する抽出器のことをアナライザーと呼び、このアナライザーを特定のニーズに合わせてカスタマイズすることができます。そして最後にビルドという作業をすることで REST API から呼び出すことができます。

スキーマ定義

読み取りたいファイルをアップロードします。ファイルの形式によって、どのようなテンプレート（モデル）が使用できるかが変わります。たとえば、PDF の場合は Document analysis のみとなります。

フィールドの追加

抽出したいフィールドの名前、説明、型、方法を自分で設定する必要があります。このサービスでは、多様なデータセットでトレーニングされた機械学習モデルに加えて生成 AI の支援を受けて抽出したいフィールドとのマッピングが行われます。

抽出したいスキーマ定義ができたら、「Save」ボタンを押下して保存します。

テスト

Test analyzer から「Run analysis」ボタンを押して抽出できるかどうか確認します。

いいですね。生成 AI の力を借りているので、帳票内に明確な Key を表すラベルが無かったとしても、意図を汲んでマッピングされていることがわかります。

注文表のところもしっかりと構造化抽出できていますね。オプションでバーコードや数式の読み取りにも対応しています。テーブル型もしっかりとスキーマ定義してあります。

ビルド

テストを繰り返して求める精度を達成したらビルドを行います。ビルドしたアナライザーはいつでも UI からテストできますし、REST API から呼び出してプログラムと統合することができます。

REST API

アナライザーの実行

import requests

# 必要なパラメータを設定
endpoint = "https://<YourAIServices>.openai.azure.com/"  # 適切なエンドポイントに置き換え
analyzer_id = "InvoiceAnalyzer"  # 実際のAnalyzer IDに置き換え
subscription_key = ""  # 実際のキーに置き換え
file_url = ""  # 実際のファイルURLに置き換え

# リクエストのURL
url = f"{endpoint}/contentunderstanding/analyzers/{analyzer_id}:analyze"
params = {
    "stringEncoding": "codePoint",
    "api-version": "2024-12-01-preview"
}

# ヘッダーとデータ
headers = {
    "Ocp-Apim-Subscription-Key": subscription_key,
    "Content-Type": "application/json"
}
data = {
    "url": file_url
}

# POSTリクエストを送信
response = requests.post(url, headers=headers, params=params, json=data)

# 結果を表示
print("Status Code:", response.status_code)
print("Response Body:", response.json())
print("Operation-Location:", response.headers['Operation-Location'])

Status Code: 202 が返ります。分析は非同期で実行されます。レスポンスヘッダー Operation-Location には分析結果を得るための完全な URL が含まれます。

Status Code: 202
Response Body: {'id': '590c644a-e044-42dd-87bc-941ff950a873', 'status': 'Running', 'result': {'analyzerId': 'InvoiceAnalyzer', 'apiVersion': '2024-12-01-preview', 'createdAt': '2024-11-26T11:47:28Z', 'warnings': [], 'contents': []}}
Operation-Location: https://<YourAIServices>.openai.azure.com/contentunderstanding/analyzers/InvoiceAnalyzer/results/590c644a-e044-42dd-87bc-941ff950a873?api-version=2024-12-01-preview

結果の取得

アナライザーの実行時に得た id を result_id にセットします。Operation-Location をそのままリクエストしても OK です。

result_id = "590c644a-e044-42dd-87bc-941ff950a873"
# リクエストのURL
url = f"{endpoint}/contentunderstanding/analyzers/{analyzer_id}/results/{result_id}"
params = {
    "api-version": "2024-12-01-preview"
}

# ヘッダー
headers = {
    "Ocp-Apim-Subscription-Key": subscription_key
}

# GETリクエストを送信
response = requests.get(url, headers=headers, params=params)

# 結果を表示
print("Status Code:", response.status_code)
print("Response Body:", response.json())

はい、分析結果が JSON で得られましたね。fields 以下に抽出結果が入ります。JSON の構造を見るに、後半部は Document Intellingence の出力構造ですねはい。

[{'markdown': '# INVOICE\n\n333 3rd Ave\nSeattle, WA 12345\nPhone: 123-456-7890\n\nPURCHASED BY:\nLiane Cormier\nThe Social Strategists\n4321 Maplewood Ave\nNashville, TN 54321\n\nPhone: 111-222-3333\n\nINVOICE # 100\n\nDATE: 1/30/23\n\nSHIP TO:\nLiane Cormier\nThe Social Strategists\n4321 Maplewood Ave\nNashville, TN 54321\n\nPhone: 111-222-3333\n\n![QRCode](barcodes/1.1 "http://contoso.com/orders/100")\n\nCOMMENTS OR SPECIAL INSTRUCTIONS:\nDue upon receipt\n\n\n<table>\n<tr>\n<th>QUANTITY</th>\n<th>DESCRIPTION</th>\n<th>UNIT PRICE</th>\n<th>TOTAL</th>\n</tr>\n<tr>\n<td>1 TB</td>\n<td>Cloud service</td>\n<td>99.99</td>\n<td>99.99</td>\n</tr>\n<tr>\n<td>1TB</td>\n<td>![UPCA](barcodes/1.2 "012345678905") 0 12345 67890 5</td>\n<td>10.00</td>\n<td>10.00</td>\n</tr>\n<tr>\n<td></td>\n<td></td>\n<td></td>\n<td></td>\n</tr>\n<tr>\n<td></td>\n<td></td>\n<td></td>\n<td></td>\n</tr>\n<tr>\n<td></td>\n<td></td>\n<td></td>\n<td></td>\n</tr>\n<tr>\n<td></td>\n<td></td>\n<td></td>\n<td></td>\n</tr>\n</table>\n\n\n<table>\n<tr>\n<td>Subtotal</td>\n<td>109.99</td>\n</tr>\n<tr>\n<td>Sales tax</td>\n<td>4.99</td>\n</tr>\n<tr>\n<td>Shipping and handling</td>\n<td>0.00</td>\n</tr>\n<tr>\n<td>TOTAL DUE</td>\n<td>114.98</td>\n</tr>\n</table>\n',
  'fields': {'CommentsORSpecialInstructions': {'type': 'string',
    'valueString': 'Due upon receipt',
    'spans': [{'offset': 402, 'length': 16}],
    'confidence': 0.997,
    'source': 'D(1,0.8182,4.2651,1.8641,4.2651,1.8641,4.4233,0.8182,4.4233)'},
   'InvoiceNo': {'type': 'string',
    'valueString': '100',
    'spans': [{'offset': 184, 'length': 3}],
    'confidence': 0.981,
    'source': 'D(1,5.0367,1.742,5.2572,1.742,5.2572,1.8767,5.0367,1.8767)'}
...
'pages': [{'pageNumber': 1,
'lines': [{'content': 'INVOICE',
'paragraphs': [{'role': 'title',
'sections': [{'span': {'offset': 0, 'length': 1130},
'tables': [{'rowCount': 7,