概要

GoogleCloudPlatformのVisonAPIを使って、漫画から文章を抜き出してみる。どの程度の精度でOCRが機能するかを調査した。

GCPのVisionAPIについて

GoogleCloudPlatformでVisonAPIがリリースされた。画像解析のライブラリだ。画像データを送信すると、その中にどのようなものが写っているか分析結果を返してくれる。詳しい紹介はこちら。

機能としては、物体検知、OCR、有害コンテンツ検知,顔検知,ランドマーク検知,ロゴ検知、及びイメージの様々な属性を検知するImagePropertiesがある。

調査結果

調査には、漫画「ブラックジャックによろしく」を利用した。 PDFで配布されているので、jpgに変換して利用した。

また、比較のため、オープンソースのOCRソフト、tesseractの解析結果も載せる。

調査結果は下

参考漫画

サイズ(w 873px:h 1200px) 300kb程度

抜き出されたテキスト

をとそこで研修医というのはところがその医師免許を国家試験は取得した者の要するに見習いだ医学の知識をみる大半はものでその後2年間大学病院などで /- 研修をするし) もっと術野を広げろ医者になるには斉藤大学で6年間医学を学びはい! 医師国家試験に実技試験などは合格しなければ含まれていないいけない

順番はめちゃくちゃだが、一応、書かれていることとの単語の羅列ぐらいは出来ている。

VisonAPIは抽出された文章が、どの矩形に含まれているか、座標のポイントも返ってくるのでそちらも表示してみる。

青の矩形が、文字があると判定した場所。赤が実際に判定した文字。ピンクの背景の文章は、最も大きな矩形から帰ってきた文章だ。¹

文意はめちゃくちゃだが、まあ、なんとなく概要は伝わるぐらいの精度の文章が帰ってきているようだ。

ちなみにtesseractでは次のようになった。

研修医というのは `要するに見習いだ医者になるには大学で6隼聞ところがその国試験は医学の知識をみる医師免許を取得した者の大半はその後2年間大学病院などで研修をする

その他ページの調査

page1

Google Vision API結果

永禄大学附属病院眠そうだな斉藤うんさっきまで当直だったから

tesseractの結果

読み込めず

page2

Google Vision API

きのうの 2時間しか朝から寝てない! もう24時間以上ここにいるよオレもさじゃあ僕の僕の教授の実験の勝ちだ手伝いでさ…… 3時間しか-( 寝てねぇ......)

tesseractの結果

含のラの朝から亀ラ四時間以上

page3

GoogleVisonAPI

えいろく永禄大学医学部卒業からちゆうううう 3カ月111 ホラ斉藤僕は今注射するのに永禄大学附属病院でイチイチそんな顔すんなー研修医をしている

tesseractの結果

えいろく永禄大学塞学邦永禄大学附属病{研彦医をしている

単に吹き出しの上だけではなく、看板に書かれた「永禄大学附属病院」なども判別しており、そこそこ精度が高いと感じた。

まとめ

GoogleのVisionAPIはそこそこ精度があるように感じた。漫画で正しいよみ順を教えるのは相当難しいので、ページの中にどのような文章や単語が含まれているかのみ抜き出して、その内容のタグクラウドを作ったり、要約抽出に書けたりして、ざっくりした内容や、どのような言葉が何ページに使われているかみたいな調査には向いているのかもしれない。

画像のファイルサイズと、読み取り精度に関して

300KBぐらいのファイルサイズのページと、1MBを超えるファイルサイズのページを比較して、両方でテキスト抽出をしてみたが、ファイルサイズが大きい方が、きちんと読み込めていたような気がする。

判定に使ったスクリプト

判定に使ったスクリプトは下記においている。

VisonAPIのOCRは、判別結果を、responseの"textAnnotations"に入れるようだ。その際、配列0番に最も大きな矩形が入り、判別した文章全体が入る。その後の配列には、形態素解析済みっぽい単語が入ってくるようだ。 ↩

GoogleCloudPlatformのVisionAPIで漫画の文章を抜き出してみる

概要

GCPのVisionAPIについて

調査結果

その他ページの調査

page1

Google Vision API結果

tesseractの結果

page2

Google Vision API

tesseractの結果

page3

GoogleVisonAPI

tesseractの結果

まとめ

画像のファイルサイズと、読み取り精度に関して

判定に使ったスクリプト