PDF/TIFF Document Text Detection

Last updated at 2019-12-14Posted at 2019-12-13

PDF/TIFF Document Text Detectionとは

Google Cloud Platform上のCloudVisionAPIという画像分析を行うAPIの中の一種。
CloudVisionAPIにはText Detection という画像のOCRの機能が存在している

基本的にJPG/PNG内のテキストを検出する物が多い

AWSやAzureといったクラウドサービスを提供しているところでは、機能として用意されている。
あとはパナソニックが出してたりする。

1.国土交通省: 令和元年度「年末年始の輸送等に関する安全総点検」の取組を実施します
https://www.mlit.go.jp/report/press/content/001317333.pdf
結果: https://github.com/ytakky2014/gcp-pdf-tiff-document-text-detection/blob/master/result/1.txt
問題なくOCRできている。

2.経済産業省: 生産性向上特別措置法【生産性革命法】及び産業競争力強化法等の一部を改正する法律の概要
https://www.meti.go.jp/policy/jigyou_saisei/seisanseisochihoukyoukahou/pdf/gaiyou-1.pdf

割と長いPDFもOCR化できているし、図表内のテキストもOCRできているがさすがに試験問題だと文のみだと理解ができないところもある。

なお、jsonを一部マスクしたのもリポジトリ内においてあるのでそちらも参照。

PDF/TIFF Document Text Detection結構良い。すぐ使える
GCSにさえPDFを入れておけば、GCSにファイルに出力が出るので使いやすい。
今回リポジトリに結果は載せなかったが、試したところ手書きした写真をPDF化したものに対して実行してもテキストを抽出できていた。
GCPはやっぱり機械学習系に強いなと思う。これからはデータをどうやって活用していくかという時代になっていくと思うので、積極的にこのような技術を使えるようにしていきたいですね。