More than 3 years have passed since last update.

tesseract使ってて知ったことの備忘録その1

Last updated at 2021-09-09Posted at 2021-09-08

実現したかったこと

マイキーの有名な(?)いねえよなぁ!!?をOCR(光学文字認識)で抽出

結果

ご覧のように全然できませんでした。。どうしたら

って出力されんだ。。マイキーの顔とか吹き出しとかも無理矢理文字に起こしてるっぽい。改行とかもあるけどきれいに「いねえよなぁ!!?」だけ抽出できたら達成感やばそう！チューニングの方法をご存知の方いらっしゃいましたらぜひコメント欄で教えてください！

今回はそんな中でもわずかながら学びがあったので今回はそれを残したいと思います。

環境構築とかすぐ詰まる人なので、Google Colab上でやりました。今回のような出力となったコードはこちら
↓

from PIL import Image
import pyocr
import pyocr.builders
import cv2
img1 = Image.open('drive/My Drive/Colab Notebooks/maiky.jpg')

tools = pyocr.get_available_tools()
# コメント1
tool = tools[1]
print(tool)

builder = pyocr.builders.TextBuilder()
# コメント2
builder.tesseract_layout = 11

txt1 = tool.image_to_string(img1, lang='jpn', builder = builder)
print(txt1)

toolsは2種類あるらしく、試しにprintすると
tools[0]は

tools[1]は

よくよく見ると呼び出してるのが違うみたいです。

tesseract_layoutの数値を今回は11にしましたが、これは0〜13までの14種類のアルゴリズムがあるようで、試しに5とかにすると

もっとカオスになります。「いねえよなぁ!!?」のどの文字も入ってないっていう。。

最後に

こんな記事見てて、自分もOCRエンジンを2とかに切り替えたら精度上がるんじゃないかなと思ったんですが、Google Colab上で実現する方法がわからず。。もしかしてできない...?

参考記事

https://www.titanwolf.org/Network/q/2a70a184-fcc2-4d65-8f9d-0abc397b94d7/y
https://valmore.work/how-to-use-tesseract4-with-python/

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up