1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Azure AIのDocument Intelligence Studioを軽く触ってみた

Posted at

概要

Azure AIのDocument Intelligence StudioというWebサービスを使うと、トレーニング済みのモデルを利用して、ブラウザで、文書(PDFなど)の解析のデモを試すことができます。

主な機能

Document Intelligence(文書)の主な機能は以下のとおりです。

  • Read(読み取り)
    • 文書の記載内容をデータ抽出する。
  • Layout(レイアウト分析)
    • 文書の、見出し、テキスト、表、図形を読み取る。

どちらもサポートする文書ファイルの拡張子はほぼ同じで、JPEG、PDF、DOCX、HTMLなどを網羅しておりますが、Layoutの方が、リッチテキスト向けの機能という印象を受けました。

どうも、Readがただのテキスト読み取りに特化しているのに対し、Layoutは、文書をHTMLのように構造立てて解析しているようです。(例:ここが見出しで、これが表だな・・、など。)

Document Intelligence Studioとは

Copilotに聞いてみました。

Azure AIのDocument Intelligence Studioは、文書処理を自動化するための強力なツールです。これを使うと、請求書、領収書、名刺などの文書から情報を抽出し、デジタル化することができます。主な機能には以下が含まれます:

ドキュメント分析: 文書内のテキストやレイアウト構造を自動的に検出・抽出します。
カスタムモデル: ユーザー独自のフォーマットや文書タイプに合わせてデータ抽出を最適化できます。
事前構築モデル: 領収書、請求書、名刺などの一般的な文書に対応したモデルを提供します。
手書き文字の認識: 手書きのテキストをデジタルデータに変換します。
ドキュメント分類: さまざまな種類の書類を自動で認識し、分類します。
このツールを使うことで、業務効率を大幅に向上させることができます。

URLはこちらです。

image.png

それでは、早速使ってみましょう。

OCR/Read

このような画面が表示されました。

image.png

真ん中に映っているものは、PDFではなく画像のようです。

中央上の「Run analysis」ボタンを押したところ、しばらくして、右側に結果が表示されました。

image.png

OCRで、テキストを認識したようです。

下のような設計図形式の文書でも、ところどころに表示されている単語を認識できていました。

image.png

Layout

Layoutの方を試してみましょう。

「Run analysis」ボタン押下後の様子です。

image.png

テキストを認識するのは、先ほどの「OCR/Read」の例と同じですね。

チェックボックスのチェックの有無も認識しています。

image.png

また、テーブルをテーブルとして認識していました。

image.png

左のような手書きの紙をスキャンしたようなものでも、対応しています。

image.png

Custom extraction models

オリジナルの帳票に対して、データ構造を定義することが出来ます。

image.png

詳細なやり方は動画で説明されていましたが、簡単なフローをここに示します。

①まずは、右上のプラスボタンでプロパティを追加します。(種類(データ型?)を選んで、名称を付けます。)

②プロパティを必要なだけ作り終わったら、文書内のデータと定義したプロパティをバインドします。

文書内のvalueである「Adatum」という単語をクリックすると、バインドするプロパティを選ぶメニューが表示されました。

image.png

いくつかバインドした後の表示内容です。

image.png

③必要なプロパティをバインドし終わったら、「Train」を押して、複数のトレーニング用データからモデルを作成します。

image.png

④トレーニング用データでモデルを作ったら、今度はテスト用データを与えて、テストをします。

image.png

その他

下のPrebuild modelsのところでは、USで一般的に使われている形式の帳票に特化した、トレーニング済みの解析モデルが利用できました。

image.png

最後に

銀行、市役所など、紙を大量に扱う組織のDX化に、非常に役立ちそうな印象を受けました。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?