はじめに
前回作成したSharepoint内を画像・ファイルをOCR/画像解析検索するアプリを使用して
Azure Cognitive SearchのOCR検索の実力を検証してみようと思います。
※2020年11月時点
前回記事:
https://qiita.com/abemaki/items/4dc6065a1b406f89b861
検証したい内容
画像化した文章データをAzure Cognitive SearchのOCR機能をもちいて抽出してみる。
フォントを変えて抽出を行い、フォントによる読み取りの得意・不得意を検証してみる。
Azure Cognitive Searchにインデクスさせるデータ
登録する画像形式の文書はこちら
※参考:青空文庫 桃太郎(https://www.aozora.gr.jp/cards/000329/files/18376_12100.html)
各フォントにより読み取りの得意・不得意があるのかの検証になります。
青空文庫の桃太郎の一部分を各フォントで画像化し、OCRでどの程度インデクス化できるかの検証になります。
評価・比較方法
『http://lab.hidetake.org』様の文章比較ツールを用いて
元データとの相違点(削除文字数)を抽出して、精度を比較し、
相違点(削除文字数)が少なければ少ないほど良いといった考えで検証します。
元データの文字数は桃太郎から切り出した『875文字』になります。
以下の計算式でCORの一致率を求めます。
(875 - 削除文字数) / 874 * 100 = 抽出率
※ざっくりしていてすみません。
Azure Cognitive Searchに登録した画像データ
ポップ体
プレゼンス
行書体
ゴシック
Azure Cognitive Searchにインデクスさせたデータ(OCR抽出結果とその評価)
検索アプリの検索結果です
個別のインデクスの中身です
※検索アプリを使って、表示したインデクスの中身を個別評価した結果です。
HGP創英プレゼンスEB.JPG
一致率97.7% ※削除文字数 20
期待以上に高いです。 ほぼOCRにて読み取れていると思います。
桃太郎ももたろうは、大いめと猿さるをしたがえて、船ふねからひらりと陸おかの上にとび上あがりました。見みはりをしていた鬼おにの兵隊へいたいは、その見みなれないすがたを見みると、びつくりして、あわてて門もんの中に逃にけ込こんで、くろがねの門もんを固かたくしめてしまいました。その時とき大いめは門もんの前まえに立たって、「日本にほんの桃太郎ももたろうさんが、お前まえたちをせいばいにおいでになったのだぞ。あけろ、あけろ。」とどなりながら、ドン、ドン、扉とびらをたたきました。鬼おにはその声こえを聞きくと、ふるえ上あがって、よけい一生懸命いっしようけんめいに、中から押おさえていました。するときじが屋根やねの上からとび下おりてきて、門もんを押おさえている鬼おにどもの目をつつきまわりましたから、鬼おにはヘいこうして逃にけ出だしました。その間まに、猿さるがするすると高たかい岩壁いわかべをよじ登のぼっていって、ぞうさなく門もんを中からあけました。「わあツ。」とときの声こえを上あけて、桃太郎ももたろうの主従しゅじゅうが、いさましくお城しろの中に攻せめ込こんでいきますと、鬼おにの大将たいしようも大おおせいの家来けらいを引ひき連つれて、一人一人ひとりひとり、太ふとい鉄てつの棒ぼうをふりまわしながら、「おう、おう。」とさけんで、向むかってきました。けれども、体からだが大きいはっかりで、いくじのない鬼おにどもは、さんざんきじに目をつつかれた上に、こんどは大いめに向むこうすねをくいつかれたといっては、痛いたい、痛いたいと逃にげまわり、猿さるに顔かおを引ひっかかれたといっては、おいおい泣なき出だして、鉄てつの棒ぼうも何なにもほうり出だして、降参こうさんしてしまいました。おしまいまでがまんして、たたかっていた鬼おにの大将たいしようも、とうとう挑太郎ももたろうに組くみふせられてしまいました。挑太郎ももたろうは大きな鬼おにの背中せなかに、馬乗うまのりにまたがっ「どうだ、これでも降参こうさんしないか。」といって、ぎゅうぎゅう、ぎゅうぎゅう、押おさえつけました。
HGP創英角ポップ体.JPG
一致率86.2% ※削除文字数 120
用途によっては実用できると思います。
読み取りづらいフォントなので自分の期待値以上には読み取りできていると思います。
挑太郎ももたろ引ま、犬いめと猿さるをしたがえて、船ふねカらひらりと陸かの上にこび上カした。見みー麾していた取にの兵隊へいたいは、芒の見みなれないかたを見みるこ、びつぐルて、わてて門もんの中に逃にけ込ごんで、くろがねの門もんを因かたくしてしまいました。その時とき犬いめは門もんの前まえに立たって、「日本にほんの挑太郎ももたろうさんが、前まえたちをせいはいにいでになったのだ芒。けろ、けろここなりなカら、ドン、ドン、扉とびらをたたきました。用には芒の声ごえを聞きくこ、ふるえ上がって、よけい一生懸命いっしようけんターに、中力ら押さえていました。るときしか屋相やねの上カらとび下ま,にきて、門もんを押まさえているにこもの目をつつきまわ,したから、にはヘにうして逃にけ出だしました。その問まに、猿さるがる確ると高たカ一岩壁いわかべをよし登のほっていって、芒うさなく門もんを中力らけました。「わツ。とときの声ごえを上けて、挑太郎ももたろうの主従しゅしゅうが、いさましく城しろの中に攻せ込ごんでいきまこにの大将たいしようも大ませいの家来けらいを引ひき連つれて、一人一人ひとりひこり、太ふこい鉄てつの棒ほうをふ,わしなカら、「う、まう。とさけんで、向おかってきました。けれこも、体力らだか大きいはっカ叫で、いくしのないにこもは、さんさんきしに目をつつかれた上に、ごんこは犬いめに向おごうねをくいつかれたといっては、痛いたい、痛いたいこ迅にけまわり、猿さるに顔かを引ひっかかれといっては、いい泣なき出だして、鉄てつの棒ほうも何なにもほうり出たして、降参ごうさんしてしまいました。しまいまでかまんして、たたかっていた思にの大待たルようも、こうこう挑木郎ももたろ引こ組くみふせられてしまいました。挑木郎ももたろ引さ大きなにの背中せな加こ、馬乗うまの,にまたかって、「こうだ、ごれでも降参ごうさんしないか。こいって、きゅうきゅう、きゅうきゅう、押さえつけまし
HGP行書体.JPG
一致率78.2% ※削除文字数190
用途によっては実用できる。
手書きに近いフォントなのに78.2%という一致率は高いほうだと思います。 うーん 優秀。
能ネ平ももたろうは、人いぬど黶さるを(たドえて、船-おからこ、らりどおかの上にどここ上あドりれた。見みはりを(ていた鬼おにの4へいたいは、その見みなれないすドたを見みるど、ここ-つぐて、あわてて門もんの十に逃にげ込こんて、くろドおの門もんを劇かた気めてはいれた。その時どき人いねは門もんの肴まえに宝た-って、「日にはんの能ネ平ももたろうさんド、お肴まえたちをせいばいにおいて・にな-ったのだぞ。あけろ、あけろ。」どどなりなドら、ドン、ドン、扉どこごらをたたきれた。鬼おにはその第こえをきくど、ふるえ上あドって、よけい一生憑命いついうけんめいに、十から押おさえていれた。するどき朝{やおの上からどこご下おりてきて、門もんを押おさえている鬼おにどもの目をつつきまわりれたいら、鬼おにはヘいこう(て逃にげ虫だ(れた。その同まに、黶さるいするするどたかい第璧いわいべをよCのに-ってい-って、うさなく門もんを十いらあけれた。「わあツ。」どどきの笋こえを上あげて、挑ネ平ももたろうの主い応ゆうド、いされくお斌(ろの十に攻せめ込こんていきますど、鬼おにの大将たいいうも大おおぜいの家まけらいを引こ、き連つれて、一人一人こ、どりこ、どり、ネふどい強てつの棒にうをふりまわ(ないら、「おう、おう。」どさけんて・、むい-ってきれた。けれども、体いらだド大きいば-ついりて・、いくのない鬼おにどもは、さんざんきいこ目をつつかれた上に、こんどは犬いぬにむこう十れをくいついれたどい-っては、いたい、いたいど逃にげまわり、黶さるにかおを引こ、-っかかれたどい-っては、おいおいなき虫だ(て、てつの棒にうも何なにもにうり虫だ(て、ネこうさん(てはいれた。おはいまてドまん(て、たたか-っていた鬼おにの大将たいいうも、どうどう能ネ平ももたろうに姐くみふせられてはいれた。能ネ平ももたろうは大きな鬼おにの背十せなかに、まうまのりにまたドーって、「どうだ、これて・もネこうさん(ないか。」どい-って、ぎゅうぎゅう、ぎゅうぎゅう、押おさえつけれた。
游ゴシック.JPG
一致率58.6% ※削除文字数361
パッと見、読み取り精度が高く見えるが
微妙に誤字があり結果的に認識精度が一番低く出てしまっている。
桃太部ももたろうは、犬いぬと猿さるをしたがえて、船ふねからひらりと陸おかの上にとび上あがりました。見みはりをしていた鬼おにの兵隊へいたいは、その見みなれないすがたを見みると、びつくりして、あわてて門もんの中に逃にげ込こんで、するときしが屋根やねの上からとび下おりてきて、門もんを押おさえている鬼おにどもの目をつつきまわりましたから、とどなりながら、ドン、ドン、扉とびらをたたきました。鬼おにはその声こえを聞きくと、日本にほんの桃太部ももたろうさんが、お前まえたちをせいばいにおいでになったのだぞ。めてしまいました。その時とき犬いぬは門もんの前まえに立たって、あけろ、あけろ。」くろがねの門もんを直かたくしふるえ上あがって、よけい-生懸命いっしようけんめいに、中から押おさえてい鬼おにはヘいこうして逃にげ土たしました。その間まに、猿さるがするすると高たかい岩壁いわかべをよし登のぼっていって、ぞうさなく門もんを中からあけました。おしまいまでがまんして、たたかっていた鬼おにの大将たいしようも、とうとう桃太部ももたろうに組くみふせられてしまいました。桃太部ももたろうは大きな鬼おにの背まいました。いたい、病いたいと逃にげまわり、猿さるに第かおを引ひっかかれたといっては、おいおい泣なき土たして、鉄てつのぼうも何なにもほうり土だして、降参こうさんしてしこんどは犬いぬに向むこうすねをくいつかれたといっては、宿けれども、体からたが大きいばっかりで、いくしのない鬼おにどもは、さんざんきしに白をつつかれた上にいの家来けらいを引ひき連つれて、-人-人ひとりひとり、太ふとい鉄てつのぼうをふりまわしながら、「おう、おう。」とさけんで、向むかってきました。「わあツ。」とときの声こえを上あげて、桃太部ももたろうの主従しゅしゅうが、いさましくお城しろの中に攻せめ込こんでいきますと、鬼おにの大将たいしようも大おおせといって、ぎゅうぎゅう、ぎゅうぎゅう、押おさえつけました。
最後に
近日OCR周りの日本語対応が強化されるようなので、強化後に改めて検証したいと思います。