はじめに
前回は1ページのPDFに対して分類ラベルを設定し、ドキュメントの分類ができるかを試しました。
今回は複数の分類が含まれているPDFに対してDocument Intelligenceを試すと、それぞれのページごとの分類はどうなるかを見てみました。
(うまく日本語で説明できないので、以下に図をかいてみます。)
前回の記事
やったこと
このように1つのPDFファイルの中に、違う分類のドキュメントが存在する場合(PDFのページ数としては図の場合3ま)、分類分けはどのような結果になるかを試しました。
試した手順
前回の記事と同様にプロジェクトを作成し、該当するリソースを選択しました。
今回は複数ファイルの内容を1枚ずつ分割し、1枚づつラベル付けをしていきます。
例:1ページ目が請求書・2ページ目が注文書・3ページ目が納品書だった場合
- PDFを分割
- 1ページ目のPDFに請求書というラベルをつける
- 2ページ目のPDFに注文書というラベルをつける
- 3ページ目のPDFに納品書というラベルをつける
ラベル付けが終了したらTrainします。
終了したらTestをしてみます。
分割前の複数ドキュメントPDFでOCRしてみます。
ページごとにどの分類のドキュメントかを当ててくれました!
おわりに
複数ページあっても1枚1枚に対して該当する分類を教えてくれるのはわりと便利なのではないかと思いました。
カスタムモデルに関する記事はあまり見かけないのですが、便利な機能だと思うので取り入れられるところでは積極的に取り入れていきたいところです。