More than 1 year has passed since last update.

AI-102試験対策のまとめ「Azure AI Document Intelligence」

Last updated at 2023-10-24Posted at 2023-10-23

はじめに

Azure AI Engineer Associate(AI-102)取得に向けた勉強でまとめた内容を本記事では投稿しています。
試験範囲の内容を私が勉強していく中で、
・忘れてしまっていた内容
・他の知識と絡めて理解した方が良い内容
・Microsoft Learnの読解に苦戦した内容
などをできるだけ分かりやすく簡潔にまとめることを意識しています。
Azureの勉強を一から始め、AI-102取得を目指している方の参考になれば幸いです。
※本記事の内容が必ず試験に出るわけではないこと、ご注意ください
※勉強しながら投稿しているため、追加で学んだことがあれば随時投稿内容を更新します。

試験対策のまとめ

Azure AI Document Intelligence(旧称：Form Recognizer)

フォームやドキュメントから個別のデータを抽出可能

ドキュメント分析モデル

モデル名	PDF	画像	Microsoft Office (Word/Excel/Power Point/HTML)	抽出対象
OCR読み取りモデル	○	○	○	・PDFの印刷テキスト・スキャン画像の手書きテキスト・Microsoftドキュメントのテキスト
レイアウト分析モデル	○	○	×	・テキスト・構造要素(タイトル/見出しなど)
一般的なドキュメントモデル	○	○	×	・キーと関連する値・選択マーク・テキスト・テーブル・構造

事前構築済みのモデル

独自モデルのトレーニングや構築が不要
PDFと画像ファイルをサポート

モデル名	抽出対象例
請求書モデル	発注書 / 売上請求書 / 公共料金など
領収書モデル	領収書 / レシートなど
身分証明書(ID)モデル	身分証明書 / パスポート / 運転免許証など
医療保険カード	米国の健康保険カード
名刺モデル	名刺
コントラクトモデル	契約書

画像ファイルの入力要件

形式：JPG/PNG/BMP/PDF/TIFF
サイズ
- 無料(FO)レベル：4MB
- 有料(S0)レベル：500MB
- 旧サービス(Form Recognizer)：50MB
ディメンション：50×50ピクセル～10,000×10,000ピクセル

カスタムモデル

抽出モデル

カスタム抽出モデルをトレーニングして、ドキュメントからラベル付きフィールドを抽出

カスタムテンプレート：静的レイアウトからデータを抽出
カスタムニュートラル：混在型ドキュメントからデータを抽出
カスタム構成：モデルのコレクションを使用してデータを抽出

分類モデル

抽出モデルを呼び出す前に、入力ドキュメントを分析してドキュメントのタイプを識別

カスタム分類子：下記を組み合わせて入力ファイル内のドキュメントを検出/識別/分類
- レイアウト機能
- 言語機能
使用例
- 下記を含むローン申請パッケージ
  - 申込書
  - 給与明細
  - 銀行明細書
- スキャンされた請求書のコレクション

コマンド

使用するクライアント
- モデルをトレーニングする場合：FormTrainingClientクラス
- データを抽出する場合：FormRecognizerClientクラス
使用するメソッド(一例)
- 一般的なコンテンツ認識の場合：StartRecognizeContentFromUriメソッド
- 領収書を認識する場合；StartRecognizeReceiptsFromUriメソッド

参考
- https://learn.microsoft.com/ja-jp/azure/ai-services/document-intelligence/overview?view=doc-intel-3.1.0

次の試験対策のまとめ

AI-102試験対策のまとめ「Azure AI Vision」

学習内容をまとめたページの一覧

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up