0

More than 1 year has passed since last update.

完走賞のQiitanぬいぐるみをお迎えするためにUnityでゲーム作ってみるAdvent Calendar 2023

【Azure AI Document Intelligence】Custom classification modelsを使ってみる

Last updated at 2023-12-12Posted at 2023-12-11

はじめに

今年の夏からブログを始めたのですが、Document Intelligenceのカスタムモデルの記事が人気です。
ブログでは、あげたPDFに対して自分で読み取ってほしい項目などを追加することができる「Custom extraction model」を試したのですが、今回は「Custom classification model」をちょっとだけ触ってみました。

Cusom extraction modelを試した記事はこちら

Custom classification modelsとは

ドキュメントがどのモデルの種類に分類されるかを識別できるものです。

例えば、以下の図のように「請求書モデル」「納品書モデル」「注文書モデル」と3つのカスタマイズ作成したモデルが存在しているとします。

ここで、この請求書というPDFはどのモデルに分類できるかを識別できるのがCustom classification modelsです。

今回は1つのドキュメントを含む1つのファイルを想定して試しています。

https://learn.microsoft.com/ja-jp/azure/ai-services/document-intelligence/concept-custom-classifier?view=doc-intel-4.0.0

やり方

Document Intelligenceリソースの作成方法は割愛させていただきます。

Document Intelligence Studioにアクセスします。

Custom classification modelsを選択します。

Create a projectをクリックして新しいプロジェクトを作成します。

プロジェクトの名前をつけます。

Document Intelligenceのリソースを指定します。

Blobの場所を指定します。

確認画面が表示されるので、「Create project」を押します。

トレーニングに使うPDFをあげていきます。

あげたPDFに対して分類タイプの名前をつけていきます。

PDFをクリックすると付与できます。

同じ分類のPDFが5枚以上ないとTrainできないので足していきます。
同じファイルが5枚もなかったので、一部同じファイルをコピーして試しました。

分類が終了したので、Trainしていきます。

時間かかるのかなと思ったら一瞬でTrainが終わりました。

試す

テストしてみると、しっかり分類できていました。

学習させてない形式の請求書をあげても、マイクロソフトサンプル請求書ではなく、寄せ集めで作った請求書ラベルの方をあげてくれました。

おわりに

精度がとても高くて技術の進歩を感じます。
自分で簡単にカスタマイズしたモデルをトレーニングできるのがいいですね。

次回は以下のようなパターンはどうなるかを実験してみたいと思います。

複数のドキュメントを含む 1 つのファイル。たとえば、ローン申請フォーム、給与明細、銀行明細書を含むローン申請パッケージなどです。

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0