-
pytesseract
の概要と使用方法についてメモする。
pytesseract 概要
-
OCRツール
Tesseract
のPythonラッパー。 -
Pillow
やNumPy
などの形式で解析対象データを受け取ることが可能。 -
コマンド呼び出しで実行。
インストール
-
pip
コマンドを使用し、インストールする。
pip install pytesseract
※必要に応じて解析データの読み込み用途でPillow
などもインストールする。
※tesseract
本体も必要。Linux環境などではapt-get -y install tesseract-ocr tesseract-ocr-jpn
でインストールしておく。
使用方法
- Pythonコード
from pytesseract import pytesseract
from PIL import Image
# 読み込み対象ファイルの指定
img = Image.open("./test.png, "r")
# tesseractコマンドのインストールパス
pytesseract.tesseract_cmd = "/usr/bin/tesseract"
# 文字列として出力できる。
ocr_result = pytesseract.image_to_string(img, lang="eng+jpn")