LoginSignup
12
2

More than 3 years have passed since last update.

PDF/TIFF Document Text Detection

Last updated at Posted at 2019-12-13

PDF/TIFF Document Text Detectionとは

Google Cloud Platform上のCloudVisionAPIという画像分析を行うAPIの中の一種。
CloudVisionAPIにはText Detection という画像のOCRの機能が存在している

類似サービス

基本的にJPG/PNG内のテキストを検出する物が多い

AWSやAzureといったクラウドサービスを提供しているところでは、機能として用意されている。
あとはパナソニックが出してたりする。

なぜPDF/TIFF Document Text Detectionなのか。

  • ちょうど調査しているタイミング(※2019/4月時点)でGAになった。
  • Goのライブラリが存在していた。
  • PDFを直接OCRできるAPIが他ではなかった (※他のAPIではJPG/PNGのOCRを行うことが主用途)
  • https://aws.amazon.com/jp/textract/
    • AWSもPDFを直接OCRできるもの出してるけど日本語未対応のようだ

使うもの

スクリーンショット 2019-04-11 13.06.49.png

注意点

  • 結果は、GCSにjson形式で出力されるので利用する際には、GCSからjsonを取得してくる必要がある。
  • 割と複雑なjsonなのでGoで取り扱うのは大変だった。

ソースコード

結果

1.国土交通省: 令和元年度「年末年始の輸送等に関する安全総点検」の取組を実施します
https://www.mlit.go.jp/report/press/content/001317333.pdf
結果: https://github.com/ytakky2014/gcp-pdf-tiff-document-text-detection/blob/master/result/1.txt
問題なくOCRできている。

2.経済産業省: 生産性向上特別措置法【生産性革命法】及び産業競争力強化法等の一部を改正する法律の概要

https://www.meti.go.jp/policy/jigyou_saisei/seisanseisochihoukyoukahou/pdf/gaiyou-1.pdf

結果: https://github.com/ytakky2014/gcp-pdf-tiff-document-text-detection/blob/master/result/2.txt
段組みされているPDFでも問題なくOCR化されている

3.令和元年度 情報セキュリティマネジメント試験 午後 問題
https://www.jitec.ipa.go.jp/1_04hanni_sukiru/mondai_kaitou_2019h31_2/2019r01a_sg_pm_qs.pdf

割と長いPDFもOCR化できているし、図表内のテキストもOCRできているがさすがに試験問題だと文のみだと理解ができないところもある。

なお、jsonを一部マスクしたのもリポジトリ内においてあるのでそちらも参照。

まとめ

  • PDF/TIFF Document Text Detection結構良い。すぐ使える
  • GCSにさえPDFを入れておけば、GCSにファイルに出力が出るので使いやすい。
  • 今回リポジトリに結果は載せなかったが、試したところ手書きした写真をPDF化したものに対して実行してもテキストを抽出できていた。
  • GCPはやっぱり機械学習系に強いなと思う。これからはデータをどうやって活用していくかという時代になっていくと思うので、積極的にこのような技術を使えるようにしていきたいですね。
12
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
2