10
10

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Adobe PDF Extract API を動かしてみた

Posted at

文書の中に含まれる表やフォームをパースして構造化データを抽出するクラウドサービスがあります。 具体的に挙げると、Textract(AWS), FormRecognizer(Azure), DocumentAI(Google)、rossum.ai, tabula(java), camelot(python), CascadeTabNet(深層学習), その他なのですが、AdobeがあらたにPDF Extract APIというサービスを公開したそうなので早速使ってみました

Adobe PDF Extract APIにはPDFに関連する様々な機能があるのですが、興味がないので割愛。構造化データを抽出する機能のみを使っています。

Java版のプログラムをダウンロードし、マニュアル通りにインストールしてビルド。割愛。

テスト1 サンプル文書中の表

image.png

結果1

image.png

評価1

あたりまえのようにパーフェクト。ヘッダーが認識できているように見える。

テスト2 日本語罫線一部なし

image.png
結果2

image.png

評価2

日本語が通る。ヘッダーとして認識されるとExcel変換時にBoldになるつまり
ヘッダーを認識しようとしている。テーブル外のフッターやヘッダーは無視なのか。

テスト3 複数行カラム
image.png

結果3
image.png

評価3

複数行カラムは苦手のよう

テスト4 縦に複数テーブル

image.png
結果4

image.png
image.png

評価4

複数のテーブルの認識は可能。セルの検出が間違ってる。テキストのアラインメントも一部間違っているけれども拾っている。

テスト5 横に複数のテーブル

image.png

結果5

image.png

image.png
image.png
image.png
image.png
image.png

評価5

6つのテーブルを正しく認識できている。

テスト6 点線

image.png

結果6

image.png

評価6

認識は正確。テストが良くない。点線の検出にはなっていないかも。

テスト7 罫線なし列挙型

image.png

結果7

image.png

評価7

罫線なしでもセルを認識できる(1行なら)。枠外のテキストは拾わない仕様のようだ。

テスト8 テキストテーブル現実版

image.png

結果8

image.png

評価8

カラムの認識が間違っている。惜しい!

テスト9 日本の現実バージョン

image.png

結果9

image.png
評価9

一部カラムがおかしいが、それは元の表がこれなので仕方ない。よくやってるほう。

テスト10 個票現実バージョン

image.png

結果10

image.png

評価10

パーフェクト。

まとめ

他社の競合サービスよりも性能が良い。完全ではないが十分使いものになる。負けました。

10
10
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
10

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?