LoginSignup
11
9

More than 5 years have passed since last update.

GoogleCloudPlatformのVisionAPIで漫画の文章を抜き出してみる

Last updated at Posted at 2016-09-18

概要

GoogleCloudPlatformのVisonAPIを使って、漫画から文章を抜き出してみる。どの程度の精度でOCRが機能するかを調査した。

GCPのVisionAPIについて

GoogleCloudPlatformでVisonAPIがリリースされた。画像解析のライブラリだ。画像データを送信すると、その中にどのようなものが写っているか分析結果を返してくれる。詳しい紹介はこちら

機能としては、物体検知、OCR、有害コンテンツ検知,顔検知,ランドマーク検知,ロゴ検知、及びイメージの様々な属性を検知するImagePropertiesがある。

調査結果

調査には、漫画「ブラックジャックによろしく」を利用した。 PDFで配布されているので、jpgに変換して利用した。

また、比較のため、オープンソースのOCRソフト、tesseractの解析結果も載せる。

調査結果は下

参考漫画

サイズ(w 873px:h 1200px) 300kb程度

img257.jpg

抜き出されたテキスト

をと そこで 研修医というのは ところがその 医師免許を 国家試験は 取得した者の 要するに見習いだ 医学の知識をみる 大半は もので その後2年間 大学病院などで /- 研修をする し) もっと 術野を広げろ 医者になるには 斉藤 大学で6年間 医学を学び はい! 医師国家試験に 実技試験などは 合格しなければ 含まれていない いけない

順番はめちゃくちゃだが、一応、書かれていることとの単語の羅列ぐらいは出来ている。

VisonAPIは抽出された文章が、どの矩形に含まれているか、座標のポイントも返ってくるのでそちらも表示してみる。

2016-09-18_09h04_02.png

青の矩形が、文字があると判定した場所。赤が実際に判定した文字。ピンクの背景の文章は、最も大きな矩形から帰ってきた文章だ。1

文意はめちゃくちゃだが、まあ、なんとなく概要は伝わるぐらいの精度の文章が帰ってきているようだ。

ちなみにtesseractでは次のようになった。

研修医というのは `要するに見習いだ医者になるには大学で6隼聞ところがその国 試験は医学の知識をみる医師免許を取得した者の大半はその後2年間大学病院などで研修をする

その他ページの調査

page1

Google Vision API結果

img242.jpg

永禄大学附属病院 眠そうだな 斉藤 うん さっきまで当直 だったから

3b0d33b0a93871b53a22eae1a3e8b4c7.png

tesseractの結果

読み込めず

page2

Google Vision API

img245.jpg

きのうの 2時間しか 朝から 寝てない! もう24時間以上 ここにいるよ オレもさ じゃあ僕の 僕の 教授の実験の 勝ちだ 手伝いでさ…… 3時間しか-( 寝てねぇ......)

669da268d710ba953fd6010f2215ec6f.png

tesseractの結果

含のラの朝から亀ラ四時間以上

page3

GoogleVisonAPI

img251.jpg

えいろく 永禄大学医学部卒業から ち ゆうううう 3カ月111 ホラ 斉藤 僕は今 注射するのに 永禄大学附属病院で イチイチそんな 顔すんなー 研修医をしている

0519a122c63c4aba89b6631437d5225e.png

tesseractの結果

えい ろく永禄大学塞学邦永禄大学附属病{研彦医をしている

単に吹き出しの上だけではなく、看板に書かれた「永禄大学附属病院」なども判別しており、そこそこ精度が高いと感じた。

まとめ

GoogleのVisionAPIはそこそこ精度があるように感じた。漫画で正しいよみ順を教えるのは相当難しいので、ページの中にどのような文章や単語が含まれているかのみ抜き出して、その内容のタグクラウドを作ったり、要約抽出に書けたりして、ざっくりした内容や、どのような言葉が何ページに使われているかみたいな調査には向いているのかもしれない。

画像のファイルサイズと、読み取り精度に関して

300KBぐらいのファイルサイズのページと、1MBを超えるファイルサイズのページを比較して、両方でテキスト抽出をしてみたが、ファイルサイズが大きい方が、きちんと読み込めていたような気がする。

判定に使ったスクリプト

判定に使ったスクリプトは下記においている。


  1. VisonAPIのOCRは、判別結果を、responseの"textAnnotations"に入れるようだ。その際、配列0番に最も大きな矩形が入り、判別した文章全体が入る。その後の配列には、形態素解析済みっぽい単語が入ってくるようだ。 

11
9
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
11
9