実現したかったこと
マイキーの有名な(?)いねえよなぁ!!?をOCR(光学文字認識)で抽出
結果
ご覧のように全然できませんでした。。どうしたら
って出力されんだ。。マイキーの顔とか吹き出しとかも無理矢理文字に起こしてるっぽい。改行とかもあるけどきれいに「いねえよなぁ!!?」だけ抽出できたら達成感やばそう!チューニングの方法をご存知の方いらっしゃいましたらぜひコメント欄で教えてください!
今回はそんな中でもわずかながら学びがあったので今回はそれを残したいと思います。
環境構築とかすぐ詰まる人なので、Google Colab上でやりました。今回のような出力となったコードはこちら
↓
from PIL import Image
import pyocr
import pyocr.builders
import cv2
img1 = Image.open('drive/My Drive/Colab Notebooks/maiky.jpg')
tools = pyocr.get_available_tools()
# コメント1
tool = tools[1]
print(tool)
builder = pyocr.builders.TextBuilder()
# コメント2
builder.tesseract_layout = 11
txt1 = tool.image_to_string(img1, lang='jpn', builder = builder)
print(txt1)
コメント1
toolsは2種類あるらしく、試しにprintすると
tools[0]は
tools[1]は
よくよく見ると呼び出してるのが違うみたいです。
コメント2
tesseract_layout
の数値を今回は11にしましたが、これは0〜13までの14種類のアルゴリズムがあるようで、試しに5とかにすると
もっとカオスになります。「いねえよなぁ!!?」のどの文字も入ってないっていう。。
最後に
こんな記事見てて、自分もOCRエンジンを2とかに切り替えたら精度上がるんじゃないかなと思ったんですが、Google Colab上で実現する方法がわからず。。もしかしてできない...?
参考記事
https://www.titanwolf.org/Network/q/2a70a184-fcc2-4d65-8f9d-0abc397b94d7/y
https://valmore.work/how-to-use-tesseract4-with-python/