OCRをやってみたかったので調べてみました。忘れないようにメモを残します。
#Tesseractのインストールと使用方法
Tesseract本体のインストールを行います。
apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn
念の為、使用できる言語を調べます。出力にjpn
が入っていれば問題ありません。
tesseract --list-langs
下の画像データtest.png
を読み込み、認識結果をファイルresult.txt
に出力する。
tesseract ./test.png ./result -l jpn
私の環境では正しく認識されました。なお、拡張子は勝手につけられます。
#Python上でTesseractを使ってみる
pythonでTesseractを使えるようにするため、pytesseractをインストールします。
pip install pytesseract
先の画像ファイルtest.jpg
を同じように認識させてみる。
import pytesseract
from PIL import Image
result = pytesseract.image_to_string(Image.open('test.png'),lang='jpn')
print(result)
これも正しく認識されました。