@norichintnk (t. m.)posted at 2021-09-10

Tesseract OCRとClova OCRでなぜこんなにも精度が違うのか

Q&A

はじめに

1.具体的にここがエラーで詰まってるとかの話ではないです。
2.こういう系の質問ができる他のサービスがございましたら教えていただけると幸いです。

質問内容

プログラミング初学の者です。最近OCRに興味が湧き、手元で試したくなったため引用画像を使って以下のコードをGoogle Colab上で実行し、OCRを試みましたが全然うまく認識されませんでした。

from PIL import Image

import pyocr

import pyocr.builders

import cv2

img1 = Image.open('drive/My Drive/Colab Notebooks/maiky.jpg')

tools = pyocr.get_available_tools()

tool = tools[0]

builder = pyocr.builders.TextBuilder()

builder.tesseract_layout = 11

txt1 = tool.image_to_string(img1, lang='jpn', builder = builder)

print(txt1)

一方、LINEでその画像を開き文字認識させるとしっかり「いねえよなぁ!!?」と抽出できておりました。(LINEさんすごい。。)これを実現してるのはClova OCRかと思います。

こんなにも精度に差があるのにTesseract OCRを使うメリットはあるのでしょうか。今回の結果からするとLINEさんが開発してるClova OCRの方がよっぽど実用的です。また、Tesseractを使った場合、手元で精度を上げる方法などございましたらご教授いただけると幸いです。よろしくお願いいたします。

0 likes

Are you sure you want to delete the question?

Tesseract OCRとClova OCRでなぜこんなにも精度が違うのか

はじめに

質問内容

1Answer

Your answer might help someone💌