LoginSignup
40

More than 3 years have passed since last update.

Amazon Textractを試してみた

Last updated at Posted at 2019-06-01

これまで承認制だったAmazon textractがついに一般公開となりました。
現段階では日本リージョンには来ておらず、また、日本語にも未対応ですが、今後各種言語に対応していくとのこと。

Textractとは、伝票などの画像ファイルを渡すと、そこに書かれているテキストを読み取った結果を返してくれるサービスです。
通常のOCRのように、読み取った文字列をただ返してくれるだけでなく、顧客名、住所、合計金額などの意味までを読み取ってくれるのが特徴です。
この処理には、機械学習の技術を使っているとのこと。
今回はブラウザ上からデータを渡して結果を参照しましたが、REST形式でデータを渡して結果をCSVで受け取ることなどもできます。

どの程度の精度を誇るのか以前から気になっていたので、実際に試してみました。

実験1

帳票データ

まず最初に渡したのが以下のデータ。
これはインターネット上から探してきたサンプルの請求書の画像データです。
保存形式はPNG形式で、解像度もそんなに高くはありません。(690×702)

ダウンロード元:
https://docs.civicrm.org/user/en/latest/img/invoice.png

invoice.png
※Textractに対応しているデータはpdf, png, jpgです。アップロードするデータはいずれかの形式のデータになっている必要があります。

実行結果

Textracでの実行結果がこちら。
読み取った帳票の横にRawText, Forms, Tablesの3つが並んでいるのがわかります。
RawTextには読み取った文字列がそのまま表示されます。Formsには、KeyValue形式で項目名と値がセットになって表示されます。
Tablesには、商品名と数量、金額などの表形式のデータが表示されます。これらの読み取った値は、APIを使うとそれぞれCSVで取得することができます。
2019-06-01_14h08_05.png

次に、それぞれのタブに出力されている内容を見てみます。

Formsタブ

Formsタブで参照できたのはこちら。サブトータル金額やトータル金額、Due Date(支払期限)などが読み取れていることがわかります。中でも、Customerの値としてKate Sneedと書かれていますが、こちらは請求書上にはどこにもCustomerとは書かれていません。にもかかわらずこのテキストをCustomerと認識する点に驚きました。

2019-05-31_18h09_37.png

tablesタブ

次にTables。一行しかないのでちょっとサンプルが悪かったですが、先頭行に項目名が入っており、正確に読み取れている事がわかります。
今回の場合、テーブル部分の読み取り精度は100%正確で、このままシステムで処理できてしまうレベルです。すごい。

invoice.png
invoice.png

実験2

もう一つの帳票をアップしてみた結果がこちら。

帳票データ

アップロードした帳票データはこちら
(これもインターネット上に落ちてたやつをそのまま利用しました)
invoice.png

実行結果

Formsタブ

Formsタブの結果は、以下の通りとなりました。
Invoce番号やサブトータル、トータル金額は読み取れていますが、Bill To(請求先)が読み取れていないのが惜しいところです。。

image.png

tablesタブ

Tablesタブの結果がこちら。
表示されている3件の数量、説明(品名)、金額が完璧に読み取れています。
これはこのままシステムで処理できるレベルです。
image.png
image.png

Tablesタブ2ページ目

こちらの帳票の場合は、先程は1つしかなかったテーブルが2つありました。
切り替えてみると、帳票の上部にある項目をテーブルと認識して読み取ってくれているみたいです。
線などが引いてなくても項目がテーブル形式っぽく並んでいれば認識してくれるんですね。

結果を見ると…先程読み取れていなかったBillToShipToの項目もちゃんと読み取ってくれています。
実際の業務で利用する場合、FormsがだめならTablesを使えば良い。ということもありそうです。
image.png
image.png

まとめ

まだ精度は100%ではなく改善の余地はありますが、英語圏限定なら、すぐに業務で使えるくらい精度が高いサービスであると感じました。
当たり前かもしれませんが、レイアウトによってTextractの認識精度も変わってくるみたいです。今後は帳票デザインするときも、機械に認識されやすい帳票を意識してデザインすることが必要となってくるかもしれません。

今後日本語に対応したら、このサービスは色んな所で利用できそうです。
商社の様に日々大量の伝票をさばいている会社などに導入したら、とても大きな効果を生むのではないでしょうか。

#このあと、試しに日本語の請求書を読み込ませてみましたが、うまく読み込めませんでした。まだ非対応と言っているのだから当たり前ですね。

いつになるかはわかりませんが、今後、日本語対応版のtextractが公開されるのが楽しみです。

参考ページ

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
40