LoginSignup
1
0

More than 3 years have passed since last update.

Google Cloud Vision API 機能検証(OCR/TEXT_DETECTION)

Last updated at Posted at 2020-05-22

1.OCRについて

ここ最近、AIを活用したOCR系の製品が増えております。
増えてはいるけど、どこまで導入が進んでいるのかは知らないです。
そして、識字率100%にはならないという事実。。。

人間でも間違えるんだから当然だろうに。
そして、100%でないと、投資する価値が上がらないということですかね。

悩ましい。。。
導入してどれだけの費用対効果があったのか。

ってことで探してみました。

AI-OCR、RPAを活用した業務自動化の検証を行いました(総務省「業務改革モデルプロジェクト」受託事業)
https://www.city.adachi.tokyo.jp/sesaku/30gyoumukaikakumodel.html

足立区が検証結果を出してくれてます。

業務量削減効果が見込めた6業務における費用対効果を、約415万円/年間と試算しました。

らしいです。

ぜひ一読ください。

2.Google Cloud Vision APIとは

さて、こちらもGoogle製のOCRとなります。
なぜ私が選んだのは、安いからです。

一ヶ月あたり 1000リクエストまで無料。

料金:
https://cloud.google.com/vision/pricing?hl=ja

1000リクエスト超えた場合、料金がかかります。
$1.5なので、現在(2020/05/17)のレートでいうと、
107.09 ☓ 1.5 = 160.635円 になります。

一ヶ月あたりのリクエスト回数 費用
0回~1000回 0円
1001回~2000回 160円
2001回~3000回 321円
3001回~4000回 481円

こんな感じです。
他のOCRと比べてかなりの安さだと聞いてはおりますが、実際価格までに比較はしてないので、参考情報お持ちの方はコメント等でお願いします。

3.検証方法

数字、ひらがな、カタカナ、漢字、英語が混ざっている文章を読ませて、どこまで精度があるのかを検証してみたいと考えております。

文章:
「2017/04/07 犬かキャットかで死ぬまで喧嘩しよう!@Official髭男dism」
最近の家に流れてる曲です。

パターン:
A.パソコンで書いた文字「MSゴシック」をスクリーンショット
B.パソコンで書いた文字「メイリオ」をスクリーンショット
C.パソコンで書いた文字「明朝体」をスクリーンショット
D.Aカメラで撮った画像
E.女性の書いたきれいな文字
F.私のがんばってきれいに書いた文字
G.私のなぐり書き

4.検証

検証には、私の作成した「書籍管理サービス/TanaToru」のツール機能を使用しております!!

A.パソコンで書いた文字「MSゴシック」をスクリーンショット
image.png
2017/04/07 犬かキャットかで死ぬまで喧嘩しよう!@Official髭男dism


B.パソコンで書いた文字「メイリオ」をスクリーンショット
image.png
2017/04/07 犬かキャットかで死ぬまで喧嘩しよう!@Official髭男dism


C.パソコンで書いた文字「明朝体」をスクリーンショット
image.png

2017/04/07 犬かキャットかで死ぬまで喧嘩しよう!@Oficial髭男dism


D.Aカメラで撮った画像
image.png
2017/04/07 犬かキャットかで死ぬまで喧嘩しよう! @Official髭男dism


E.女性の書いたきれいな文字
image.png
2017/04/07 犬かキャットかで死ぬまで喧の弾しよう!@ official 耗男dism


F.私のがんばってきれいに書いた文字
image.png

SM
2011/04/o7 犬かキャットガで死為まで喧庫しょうQo件ial髪界s


G.私のなぐり書き
image.png

なんと、Err・・・。
読み込み不可ということでしょう。。。

5.検証結果

検証ケース OCR結果 識字率
A.パソコンで書いた文字「MSゴシック」をスクリーンショット  2017/04/07 犬かキャットかで死ぬまで喧嘩しよう!@Official髭男dism 97.7%
B.パソコンで書いた文字「メイリオ」をスクリーンショット  2017/04/07 犬かキャットかで死ぬまで喧嘩しよう!@Official髭男dism 97.7%
C.パソコンで書いた文字「明朝体」をスクリーンショット  2017/04/07 犬かキャットかで死ぬまで喧嘩しよう!@Oficial髭男dism 95.5%
D.Aカメラで撮った画像  2017/04/07 犬かキャットかで死ぬまで喧嘩しよう! @Official髭男dism 97.8%
E.女性の書いたきれいな文字  2017/04/07 犬かキャットかで死ぬまで喧の弾しよう!@ official 耗男dism 70.2%
F.私のがんばってきれいに書いた文字  SM 2011/04/o7 犬かキャットガで死為まで喧庫しょうQo件ial髪界s 59.1%
G.私のなぐり書き  Err 0%

こんなとこですね。
※ 識字率の計算式は、なんとなくです。

結果として、tegakiのように、識字率99%(マジ)という風にはまだまだいきませんね。
実際に使ってるユーザの体感識字率と違うとは思っていはいますが。。。

うまく認識できない要因として、読み込む範囲に、数値、文字、記号等の指定が出来ない。
全部送ってGoogleよろしく状態なので、0(ゼロ)とO(オー)の違いが判断できていないところもある。
人間が見れは、明らかに日付だから0(ゼロ)だと分かる部分が、このサービスではわかっていない。
まぁしょうがないですよね。tegakiのように人間の書いた文字の認識に特化しているわけではないのだから。

ということで、現時点では、人間の書いた文字をGoogle Visionにうまく読ませるほどのクオリティはありません。
ただ、コンピュータで書いた文字はいい感じに読んでくれます。

印刷物限定にOCRサービス作ったら売れるだろうか・・・。

以上、検証終わり。

2020/05/23 追記:
投稿した直後に気づいてよかった。
Googleも手書き認識用のサービスできてました。

APIに種別に、「DOCUMENT_TEXT_DETECTION」を使うことで、手書き認識に特化したサービスが受けられます。
ただし、英語圏のみのサービスみたい・・・。

日本向けに同等のサービスが開始され次第、再度検証したいと考えております。

6.おまけ(なぐり書き詳細)

私のなぐり書きですが、まぁ汚いのはGoogleにも認められてます。
とはいえ、全部送るとNGではありますが、少しずつ送れば分かってくれるのではないか。。。。

ということで別途、検証してみたいと思います。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0