Tesseract OCRとClova OCRでなぜこんなにも精度が違うのか
はじめに
1.具体的にここがエラーで詰まってるとかの話ではないです。
2.こういう系の質問ができる他のサービスがございましたら教えていただけると幸いです。
質問内容
プログラミング初学の者です。最近OCRに興味が湧き、手元で試したくなったため引用画像を使って以下のコードをGoogle Colab上で実行し、OCRを試みましたが全然うまく認識されませんでした。
from PIL import Image
import pyocr
import pyocr.builders
import cv2
img1 = Image.open('drive/My Drive/Colab Notebooks/maiky.jpg')
tools = pyocr.get_available_tools()
tool = tools[0]
builder = pyocr.builders.TextBuilder()
builder.tesseract_layout = 11
txt1 = tool.image_to_string(img1, lang='jpn', builder = builder)
print(txt1)
一方、LINEでその画像を開き文字認識させるとしっかり「いねえよなぁ!!?」と抽出できておりました。(LINEさんすごい。。)これを実現してるのはClova OCRかと思います。
こんなにも精度に差があるのにTesseract OCRを使うメリットはあるのでしょうか。今回の結果からするとLINEさんが開発してるClova OCRの方がよっぽど実用的です。また、Tesseractを使った場合、手元で精度を上げる方法などございましたらご教授いただけると幸いです。よろしくお願いいたします。
0