6
Help us understand the problem. What are the problem?

posted at

Adobe PDF Extract API を動かしてみた

文書の中に含まれる表やフォームをパースして構造化データを抽出するクラウドサービスがあります。 具体的に挙げると、Textract(AWS), FormRecognizer(Azure), DocumentAI(Google)、rossum.ai, tabula(java), camelot(python), CascadeTabNet(深層学習), その他なのですが、AdobeがあらたにPDF Extract APIというサービスを公開したそうなので早速使ってみました

Adobe PDF Extract APIにはPDFに関連する様々な機能があるのですが、興味がないので割愛。構造化データを抽出する機能のみを使っています。

Java版のプログラムをダウンロードし、マニュアル通りにインストールしてビルド。割愛。

テスト1 サンプル文書中の表

image.png

結果1

image.png

評価1

あたりまえのようにパーフェクト。ヘッダーが認識できているように見える。

テスト2 日本語罫線一部なし

image.png

結果2

image.png

評価2

日本語が通る。ヘッダーとして認識されるとExcel変換時にBoldになるつまり
ヘッダーを認識しようとしている。テーブル外のフッターやヘッダーは無視なのか。

テスト3 複数行カラム
image.png

結果3
image.png

評価3

複数行カラムは苦手のよう

テスト4 縦に複数テーブル

image.png

結果4

image.png
image.png

評価4

複数のテーブルの認識は可能。セルの検出が間違ってる。テキストのアラインメントも一部間違っているけれども拾っている。

テスト5 横に複数のテーブル

image.png

結果5

image.png

image.png
image.png
image.png
image.png
image.png

評価5

6つのテーブルを正しく認識できている。

テスト6 点線

image.png

結果6

image.png

評価6

認識は正確。テストが良くない。点線の検出にはなっていないかも。

テスト7 罫線なし列挙型

image.png

結果7

image.png

評価7

罫線なしでもセルを認識できる(1行なら)。枠外のテキストは拾わない仕様のようだ。

テスト8 テキストテーブル現実版

image.png

結果8

image.png

評価8

カラムの認識が間違っている。惜しい!

テスト9 日本の現実バージョン

image.png

結果9

image.png

評価9

一部カラムがおかしいが、それは元の表がこれなので仕方ない。よくやってるほう。

テスト10 個票現実バージョン

image.png

結果10

image.png

評価10

パーフェクト。

まとめ

他社の競合サービスよりも性能が良い。完全ではないが十分使いものになる。負けました。

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Sign upLogin
6
Help us understand the problem. What are the problem?