概要
Azure AIのDocument Intelligence StudioというWebサービスを使うと、トレーニング済みのモデルを利用して、ブラウザで、文書(PDFなど)の解析のデモを試すことができます。
主な機能
Document Intelligence(文書)の主な機能は以下のとおりです。
- Read(読み取り)
- 文書の記載内容をデータ抽出する。
- Layout(レイアウト分析)
- 文書の、見出し、テキスト、表、図形を読み取る。
どちらもサポートする文書ファイルの拡張子はほぼ同じで、JPEG、PDF、DOCX、HTMLなどを網羅しておりますが、Layoutの方が、リッチテキスト向けの機能という印象を受けました。
どうも、Readがただのテキスト読み取りに特化しているのに対し、Layoutは、文書をHTMLのように構造立てて解析しているようです。(例:ここが見出しで、これが表だな・・、など。)
Document Intelligence Studioとは
Copilotに聞いてみました。
Azure AIのDocument Intelligence Studioは、文書処理を自動化するための強力なツールです。これを使うと、請求書、領収書、名刺などの文書から情報を抽出し、デジタル化することができます。主な機能には以下が含まれます:
ドキュメント分析: 文書内のテキストやレイアウト構造を自動的に検出・抽出します。
カスタムモデル: ユーザー独自のフォーマットや文書タイプに合わせてデータ抽出を最適化できます。
事前構築モデル: 領収書、請求書、名刺などの一般的な文書に対応したモデルを提供します。
手書き文字の認識: 手書きのテキストをデジタルデータに変換します。
ドキュメント分類: さまざまな種類の書類を自動で認識し、分類します。
このツールを使うことで、業務効率を大幅に向上させることができます。
URLはこちらです。
それでは、早速使ってみましょう。
OCR/Read
このような画面が表示されました。
真ん中に映っているものは、PDFではなく画像のようです。
中央上の「Run analysis」ボタンを押したところ、しばらくして、右側に結果が表示されました。
OCRで、テキストを認識したようです。
下のような設計図形式の文書でも、ところどころに表示されている単語を認識できていました。
Layout
Layoutの方を試してみましょう。
「Run analysis」ボタン押下後の様子です。
テキストを認識するのは、先ほどの「OCR/Read」の例と同じですね。
チェックボックスのチェックの有無も認識しています。
また、テーブルをテーブルとして認識していました。
左のような手書きの紙をスキャンしたようなものでも、対応しています。
Custom extraction models
オリジナルの帳票に対して、データ構造を定義することが出来ます。
詳細なやり方は動画で説明されていましたが、簡単なフローをここに示します。
①まずは、右上のプラスボタンでプロパティを追加します。(種類(データ型?)を選んで、名称を付けます。)
②プロパティを必要なだけ作り終わったら、文書内のデータと定義したプロパティをバインドします。
文書内のvalueである「Adatum」という単語をクリックすると、バインドするプロパティを選ぶメニューが表示されました。
いくつかバインドした後の表示内容です。
③必要なプロパティをバインドし終わったら、「Train」を押して、複数のトレーニング用データからモデルを作成します。
④トレーニング用データでモデルを作ったら、今度はテスト用データを与えて、テストをします。
その他
下のPrebuild modelsのところでは、USで一般的に使われている形式の帳票に特化した、トレーニング済みの解析モデルが利用できました。
最後に
銀行、市役所など、紙を大量に扱う組織のDX化に、非常に役立ちそうな印象を受けました。