0

More than 1 year has passed since last update.

完走賞のQiitanぬいぐるみをお迎えするためにUnityでゲーム作ってみるAdvent Calendar 2023

【Azure AI Document Intelligence】Custom classification modelsでいろいろ試す

Last updated at 2023-12-12Posted at 2023-12-12

はじめに

前回は1ページのPDFに対して分類ラベルを設定し、ドキュメントの分類ができるかを試しました。
今回は複数の分類が含まれているPDFに対してDocument Intelligenceを試すと、それぞれのページごとの分類はどうなるかを見てみました。
(うまく日本語で説明できないので、以下に図をかいてみます。)

前回の記事

やったこと

このように1つのPDFファイルの中に、違う分類のドキュメントが存在する場合(PDFのページ数としては図の場合3ま)、分類分けはどのような結果になるかを試しました。

試した手順

前回の記事と同様にプロジェクトを作成し、該当するリソースを選択しました。

今回は複数ファイルの内容を1枚ずつ分割し、1枚づつラベル付けをしていきます。

例：1ページ目が請求書・2ページ目が注文書・3ページ目が納品書だった場合

PDFを分割
1ページ目のPDFに請求書というラベルをつける
2ページ目のPDFに注文書というラベルをつける
3ページ目のPDFに納品書というラベルをつける

ラベル付けが終了したらTrainします。
終了したらTestをしてみます。

分割前の複数ドキュメントPDFでOCRしてみます。
ページごとにどの分類のドキュメントかを当ててくれました！

おわりに

複数ページあっても1枚1枚に対して該当する分類を教えてくれるのはわりと便利なのではないかと思いました。
カスタムモデルに関する記事はあまり見かけないのですが、便利な機能だと思うので取り入れられるところでは積極的に取り入れていきたいところです。

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0