はじめに
今年の夏からブログを始めたのですが、Document Intelligenceのカスタムモデルの記事が人気です。
ブログでは、あげたPDFに対して自分で読み取ってほしい項目などを追加することができる「Custom extraction model」を試したのですが、今回は「Custom classification model」をちょっとだけ触ってみました。
Cusom extraction modelを試した記事はこちら
Custom classification modelsとは
ドキュメントがどのモデルの種類に分類されるかを識別できるものです。
例えば、以下の図のように「請求書モデル」「納品書モデル」「注文書モデル」と3つのカスタマイズ作成したモデルが存在しているとします。
ここで、この請求書というPDFはどのモデルに分類できるかを識別できるのがCustom classification modelsです。
今回は1つのドキュメントを含む1つのファイルを想定して試しています。
やり方
Document Intelligenceリソースの作成方法は割愛させていただきます。
Document Intelligence Studioにアクセスします。
Custom classification modelsを選択します。
Create a projectをクリックして新しいプロジェクトを作成します。
Document Intelligenceのリソースを指定します。
確認画面が表示されるので、「Create project」を押します。
あげたPDFに対して分類タイプの名前をつけていきます。
同じ分類のPDFが5枚以上ないとTrainできないので足していきます。
同じファイルが5枚もなかったので、一部同じファイルをコピーして試しました。
時間かかるのかなと思ったら一瞬でTrainが終わりました。
試す
学習させてない形式の請求書をあげても、マイクロソフトサンプル請求書ではなく、寄せ集めで作った請求書ラベルの方をあげてくれました。
おわりに
精度がとても高くて技術の進歩を感じます。
自分で簡単にカスタマイズしたモデルをトレーニングできるのがいいですね。
次回は以下のようなパターンはどうなるかを実験してみたいと思います。
複数のドキュメントを含む 1 つのファイル。 たとえば、ローン申請フォーム、給与明細、銀行明細書を含むローン申請パッケージなどです。