More than 5 years have passed since last update.

Amazon Textract（OCR）についてまとめてみた

Posted at 2019-07-31

今回Amazon TextractのAPIを使ってみようと思い、いろいろ試行錯誤したので
そこで得た知識をまとめてみたいと思います。

Amazon Textract

2019年にAmazonが一般公開したOCRサービスです。

現在出ているAI-OCR製品やOCR製品は値段が高く、手が届かない方も多いと思います。しかし、Amazon Textractは値段が格段に安く、企業としてでも一般の方でも利用できます。

※この図は2019年7月31日現在のものです。

上記は私がまとめたものですが、随時変更があるかもしれないので、あくまで公式サイトを確認してください。

※上記の料金は2019年7月31日時点です。

Amazon Textract の料金 - AWS -

特徴1: クラウド上で動く

Amazon TextractはAWSのサービスのうちの1つで、クラウド上で動かせるためデスクトップアプリのインストールやサーバーの用意をする必要がありません。

ブラウザ上でのマウスクリックだけで処理が完結しちゃいます！

特徴2: AIを使っているためフォームや表を認識できる

インターネットで拾ってきた書類をAmazon Textractにかけてみると、見事に表を認識しています！
セル指定すれば、欲しい情報が持ってこれます！

例えば↑この画像をAmazon Textractのかけると、「Date」は「2019/7/1」という風に認識してくれるため、この文書の「Date」を指定すれば日付の部分を取得することができます。

他の方の記事と合わせて読んでいただけると分かりやすいかと思います。

Amazon Textractを試してみた

また、以下のような表の情報も読み取ることができます！
なので、1列目の1行目という指定をすると、そのセル内の値がとってこれます！すごい！

特徴3: 信頼スコアが出てくる！

Amazon Textractで文字をOCRにかけると、テキストだけでなく信頼スコアも同時に返ってきます。
信頼スコアは、Amazon Textractが画像を読み取って解析した文字がどれくらい信頼できるかを表したもので、自信があるものは99.9816とか返ってきますし、自信ないときは58.301くらいの数字が返ってきます。

特徴4: APIが使用できる

ブラウザ上でAmazon Textractを使用することもできますが、コードを書いてAPIを使用してリクエストを送ることもできます。

API使用準備

APIを使用してリクエストを送るためには、以下の手順を踏む必要があります。

AWSアカウントを作成
IAMユーザーを作成
AWSのアクセスキー、シークレットキーを発行

APIの種類

基本的には「Detect Document API」と「Analyze Document API」の二種類から選びます。

どちらも画像をリクエストパラメータとして送りますが、Detect Document APIは、OCR解析した後のテキスト、信頼スコア、そのテキストは何行目にあるのかなどが返ってきます。そして、Analyze Document APIはDetect Document APIのレスポンスに加えて、フォームのキーとバリューや、表のセルの情報も返ってきます。

ただ、非同期でレスポンスが欲しい場合は「GetDocument
Analysis API」「GetDocument TextDetection API」「Start DocumentAnalysis API」「Start DocumentTextDetection API」という別のAPIを使用する必要があります。

「同期」「非同期」の違いは、公式サイトにはこのように書かれています。

同期 API は単一ページのドキュメント、およびモバイルキャプチャなどの低遅延ユースケースに使用できます。非同期 API は、何千ものページを含む PDF ドキュメントなど、複数ページのドキュメントに使用できます。

詳しくは「Amazon Textract APIリファランス」をご参照ください。

APIのリクエスト概要

Amazon Textractは日本語対応しておらず、限られたリージョンでしか使用できません。

リージョンとエンドポイントは以下の通りです。

Region Name	Region	Endpoint
米国東部 (オハイオ)	us-east-2	textract.us-east-2.amazonaws.com
米国東部 (バージニア北部)	us-east-1	textract.us-east-1.amazonaws.com
米国西部 (オレゴン)	us-west-2	textract.us-west-2.amazonaws.com
欧州 (アイルランド)	eu-west-1	textract.eu-west-1.amazonaws.com