0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

文字認識ソフトのTesseractを使ってみた

Last updated at Posted at 2021-06-29

OCRをやってみたかったので調べてみました。忘れないようにメモを残します。

#Tesseractのインストールと使用方法

Tesseract本体のインストールを行います。

apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn

念の為、使用できる言語を調べます。出力にjpnが入っていれば問題ありません。

tesseract --list-langs

下の画像データtest.pngを読み込み、認識結果をファイルresult.txtに出力する。

test.png

tesseract ./test.png ./result -l jpn

私の環境では正しく認識されました。なお、拡張子は勝手につけられます。

#Python上でTesseractを使ってみる

pythonでTesseractを使えるようにするため、pytesseractをインストールします。

pip install pytesseract

先の画像ファイルtest.jpgを同じように認識させてみる。

import pytesseract
from PIL import Image

result = pytesseract.image_to_string(Image.open('test.png'),lang='jpn') 
print(result)

これも正しく認識されました。

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?